京橋のバイオインフォマティシャンの日常

南国のビーチパラソルの下で、Rプログラムを打ってる日常を求めて、、Daily Life of Bioinformatician in Kyobashi of Osaka

R/ShortReadパッケージを使って、FASTQ形式ファイルを読み込む

はじめに

今回は、MacOSX環境で、SRA Toolkitのfastq-dumpを用いて取得した、 FASTQ形式ファイルをRに読み込む方法を扱う。

FASTQ形式ファイルの読み込みには、 Bioconductorパッケージの1つである、 ShortReadパッケージのreadFastq関数を用いる。

readFastq関数は、 指定のディレクトリ内にあるFASTQ形式のファイルのうち、 ファイル名がパターンマッチするものをすべて読み込む。 あるいは、1つのファイル名を与えて、読み込むんこともできる。 読み込み結果は、ファイル内の配列と品質スコアをコンパクトな内部表現として返す。

それでは、早速、FASTQファイルの読み込みを試してみる。

関連パッケージの読み込み

#インストール
install.packages(c("BiocManager", "ggplot2"))
BiocManager::install("ShortRead")

#ロード
library(ShortRead)
library(ggplot2)

SRA Toolkit / fastq-dump コマンドを使って、FASTQファイルを取得する。

SRA Toolkitの設定は、以前の記事を参考のこと。

skume.net

ターミナルあるいはRStudioのTerminalタブにて、以下を実行する。

# fastq-dumpのパス確認
which fastq-dump

#SRR17327096データの取得(約16MB)
fastq-dump SRR17327096
#Read 110774 spots for SRR17327096
#Written 110774 spots for SRR17327096

#ファイルの確認
ls | grep SRR17327096      
#SRR17327096.fastq

FASTQファイルの読み込み

それでは、readFastq関数で、 FASTQファイルを読み込む。

#読み込み
fq <- ShortRead::readFastq("SRR17327096.fastq")

#表示
fq
#class: ShortReadQ
#length: 110774 reads; width: 488 cycles

#シークエンスをみる
reads <- ShortRead::sread(fq)
reads

ShortRead::sreadの表示結果

リード長を取り出す方法

#リード長を取り出す
widths <- as.data.frame(reads@ranges@width)

#head表示
head(widths)
#  reads@ranges@width
#1                488
#2                488
#3                488
#4                488
#5                488
#6                488

#カウント
table(widths)
#widths
#   488 
#110774 

クオリティスコアを可視化する

ここでは、FASTQファイルのクオリティスコアを抽出して、リードごとの平均値をグラフ化する。

# クオリティスコアを得る
quals <- Biostrings::quality(fq)

#表示
quals
#class: FastqQuality
#quality:
#BStringSet object of length 110774:
#         width seq
#     [1]   488 FFFFFFFFFFFFFFFFFFFFFFFFFFFFF...FFFFFFFFF:FFFFFF,FFFFFFFFFF:
#     [2]   488 FFFFFFFFFFFFFFFFFFFFFFFFFFFFF...FFFFFFFFFFFFFFFFF:FFFFFF:FFF
#     [3]   488 FFFFFFFFFFFFFFFFFFFFFFFFFFFFF...,FFFFFFFFFFFFFFFFFFF:FF,FFFF
#     [4]   488 FFFFFFFFFFFFFFFFFFFFFFFFFFFFF...FF:FFFF:FFFFF,FF::FFFFFFF,FF
#     [5]   488 FFFFFFFFFFFFFFFFFFFFFFF:FFFFF...FFFFFFFFF,FFFFFFF:F,FFFFFFFF
#     ...   ... ...
#[110770]   488 FFFFFFFFFFFFFFFFFFFFFFFFFF:FF...FFFF:FFF,FFFFFFFFFF:FFFFF:FF
#[110771]   488 FFFFFFFFFFFFFFFFFFFFFFFFFFFFF...FFFFFFFFFFFFFFFFFFFFFFFFFFFF
#[110772]   488 FFFFFFFFFFFFFFFFFFFFFFFFFFFFF...FFFFFFFFFFFFFFFFFFF:FFFF:FFF
#[110773]   488 FFFFFFFFFFFFFFFFFFFFFFFFF:FFF...F:FFFFFFFFFFFFFF:FFFFFFFFFF:
#[110774]   488 FFFFFFFFFFFFFFFFFFFFFFFFFFFFF...FFFFFFFFFFFFFFFFFFFFFFFFFFFF

#オブジェクトを強制的に行列クラスに変換する
scores <- as(quals, 'matrix')

#行ごとで平均値を計算
Avgscore <- data.frame(x=rowMeans(scores, na.rm = T))
str(Avgscore)
#'data.frame': 110774 obs. of  1 variable:
# $ x: num  36.4 36.8 36.3 36.5 35.8 ...

#可視化
ggplot(Avgscore) + 
  geom_histogram(aes(x=x))

行ごとの平均値の可視化結果

サイクルごとにクオリティスコアを可視化する

#リストに変換する
Dat <- NULL
for(n in 1:ncol(scores)){
  #n <- 1
  print(n)
  a <- mean(scores[,n])
  b <- sd(scores[,n])
  cc <- data.frame(Ave=a, sd=b)
  Dat <- rbind(Dat, cc)
}

str(Dat)
#'data.frame': 488 obs. of  2 variables:
# $ Ave: num  36.5 36.6 36.2 36.6 36.3 ...
# $ sd : num  3.17 2.8 3.79 2.5 3.4 ...

#可視化
par(family="HiraKakuProN-W3", lwd=1.5, xpd=F, 
    mgp=c(2.25, 1, 0), mai=c(0.75,0.75, 0.5, 0.5))
plot(c(1, nrow(Dat)), c(0, 45), type = "n", xlab="Cycle", ylab="Q-Score")
points(Dat[,1], pch=21, col = "red", cex=0.25)
for(m in 1:ncol(scores)){segments(m, Dat[m,1]+Dat[m,2], m, Dat[m,1]-Dat[m,2], col = "red", lwd=0.1) }

Cycle数 v.s. Q-Score(赤丸はQ-Scoreの平均値で、平均値±SD(標準偏差)でドット表示)

まとめ

NCBIアーカイブからFASTQファイルのダウンロードから、 ファイル読み込みまでの内容を扱った。

Bioconductorプロジェクトから関数群が提供されていることにも少し感動する。

ゲノム解析の関連記事

skume.net

skume.net

skume.net

skume.net

skume.net

参考資料

www.rdocumentation.org

bioconductor.org

kasperdanielhansen.github.io

github.com

Wikipedia 英語記事「COVID-19」の日本語訳を公開してみた【その3: COVID感染症の病態生理】

はじめに

この記事は、2021年12月30日現在のWikipedia 英語記事「COVID-19」を日本語訳したものである。

en.wikipedia.org

この情報は英語ページにはありますが、まだ日本語ページは存在していません。結構しっかりした内容だったので、このwikipedia記事の日本語訳を作成することにしました。

コロナ関連の情報はすぐに古くなりますので、その都度、新しい情報を確認してください。

Pathophysiology / 病態生理

SARS-CoV-2ウイルス(COVID-19)は、生体内の様々な細胞やシステムに感染する。 COVID-19は、上気道(副鼻腔、鼻、喉)および下気道(気管および肺)に感染することがよく知られている*1。 肺は、COVID-19の影響を最も受ける臓器である。 なぜなら、ウイルスは、肺のII型肺胞細胞の表面に最も豊富に存在する、アンジオテンシン変換酵素2(ACE2)の受容体を介して、宿主細胞にアクセスする*2。 ウイルスは、「スパイク」と呼ばれる、特殊な表面糖タンパク質を用いて、ACE2受容体とコネクトして、宿主細胞に侵入する*3

COVID-19の病原性。(1A)COVID-19ウイルスは、エンドサイトーシス(endocytosis)あるいはACE2受容体に結合して膜融合を介して、上皮細胞に侵入し、ウイルスのRNAを細胞質内に放出する。(1B)ウイルスRNAは、細胞のシステムを利用して、ウイルスの非構造タンパク質や構造タンパク質を翻訳し、そのRNAを複製する。(1C)ウイルスの構造タンパク質S、E、Mは粗面小胞体(RER)で合わさる。(1D)その後、ウイルス構造とヌクレオキャプシドが小胞体ゴルジ体中間体(ERGIC)で集合体になる。(1E)ゴルジ小胞にパックされた、新しいウイルスは細胞膜と融合し、エキソサイトーシスを介して放出される。(2)COVID-19感染により炎症因子が誘導され、マクロファージや樹状細胞の活性化を引き起こす。(3)主要組織適合性複合体IおよびII(MHC IおよびII)を介した、COVID-19ウイルスの抗原提示は、体液性および細胞性免疫を刺激し、サイトカインおよび抗体の産生をもたらす。(4)COVID-19の重症例では、ウイルスは下気道に到達し、II型肺細胞に感染して、アポトーシスと表面活性物質(surfactant)の損失を引き起こす。マクロファージと好中球が流入して、サイトカインストーム*4を引き起こす。毛細血管の漏出により、肺胞水腫(alveolar edema)が生じる。ヒアルロン酸膜が形成される。これらの病理学的変化のすべては、肺胞のダメージや崩壊をもたらし、ガス交換を障害する。(出典元

過去の記事

skume.net

skume.net

*1:Harrison AG, Lin T, Wang P (December 2020). "Mechanisms of SARS-CoV-2 Transmission and Pathogenesis". Trends in Immunology. 41 (12): 1100–1115. doi:10.1016/j.it.2020.10.004. PMC 7556779. PMID 33132005.

*2:Verdecchia P, Cavallini C, Spanevello A, Angeli F (June 2020). "The pivotal link between ACE2 deficiency and SARS-CoV-2 infection". European Journal of Internal Medicine. 76: 14–20. doi:10.1016/j.ejim.2020.04.037. PMC 7167588. PMID 32336612.

*3:Letko M, Marzi A, Munster V (April 2020). "Functional assessment of cell entry and receptor usage for SARS-CoV-2 and other lineage B betacoronaviruses". Nature Microbiology. 5 (4): 562–569. doi:10.1038/s41564-020-0688-y. PMC 7095430. PMID 32094589.

*4:感染症などによって、サイトカイン(IL-1,IL-6,TNF-αなど)が異常に上昇して、その作用が全身に及ぶことで、好中球の活性化、血液凝固機構活性化、血管拡張などを全身に起こり、多臓器不全にまで進行する。この状態を、サイトカインストーム(cytokine storm)という。

Wikipedia 英語記事「COVID-19」の日本語訳を公開してみた【その2: COVIDの伝染】

はじめに

この記事は、2021年12月30日現在のWikipedia 英語記事「COVID-19」を日本語訳したものである。

en.wikipedia.org

この情報は英語ページにはありますが、まだ日本語ページは存在していません。結構しっかりした内容だったので、このwikipedia記事の日本語訳を作成することにしました。

コロナ関連の情報はすぐに古くなりますので、その都度、新しい情報を確認してください。

Transmission / 伝染

COVID-19の感染について。ウイルスの人体への感染は、ウイルスを含む飛沫(5μm以上)やエアロゾル(5μm未満)を産生する、感染者の咳やくしゃみによって発生する。人から人へのウイルス感染は、直接/間接的な接触と空気中のエアロゾル/飛沫の経路で起こる。大きな飛沫は主に空気中から沈降し、人・物の汚染を引き起こす。一方、エアロゾルは空気中に効率的に拡散する。直接感染は近距離で、空気感染は遠距離・長時間で発生する。空気中を浮遊するウイルスは、ヒトに吸入されると呼吸器官に直接沈着する。(出典元

より大きな飛沫とエアロゾルを包含する、COVID-19の呼吸器感染経路について。(出典元

COVID-19感染症は主に、感染した人が呼吸、会話、咳、くしゃみ、歌うときに吐き出す飛沫や小さな空気中の粒子(エアロゾルを形成する)を吸い込むことによって、呼吸器系の経路を介して感染する *1 *2 *3 *4。 感染した人が物理的に近くにいると、COVID-19はより感染しやすくなる。 感染は、特に屋内では、より長い距離でも起こりうる *5

感染力は、症状が出る1~3日前に生じる*6。 感染者は、前症状や無症状であっても、病気を広げる。 最も一般的には、上気道のウイルス量のピークは症状がでた時近くに起こり、発症後1週間を過ぎると減少する。 現在のところ、ウイルスの排出期間および感染可能期間は、軽度から中等度のCOVID-19の患者では発症後最大10日間、免疫不全者を含む重度のCOVID-19の患者では最大20日間であることが示唆されている*7

感染性粒子の大きさは、長時間空気中に浮遊するエアロゾルから、空気中に留まったり地面に落下したりする大きな飛沫まで、さまざまである*8 *9 *10 *11。 さらに、COVID-19の研究により、呼吸器系ウイルスの感染経路に関する従来の理解が再定義された*12。 呼吸液の最大の飛沫はそう遠くまで移動せず、吸い込んだり、目や鼻、口の粘膜に付着して感染する。 エアロゾルは人が近づいたときに最も濃度が高くなるため、人同士が物理的に近づいたときにウイルスが感染しやすくなる。 空気感染は、主に換気の悪い場所で、より長い距離で起こりうる。 そのような条件下では、小さな粒子が数分から数時間空気中に浮遊したままになることがある。

一般に、感染者一人から伝染する人数は様々であり*13、10~20%の人だけが感染拡大の原因となっている*14。 多くの場合、クラスター感染で広がり、指標となる症例や地理的な場所まで感染を遡ることができる*15。 このような場合、多くの人に感染を引き起こす、スーパー・スプレッダー*16がしばしば発生する。

その3に続く

skume.net

*1:Wang CC, Prather KA, Sznitman J, Jimenez JL, Lakdawala SS, Tufekci Z, Marr LC (August 2021). "Airborne transmission of respiratory viruses". Science. 373 (6558). Bibcode:2021Sci...373.....W. doi:10.1126/science.abd9149. PMID 34446582.

*2:Greenhalgh T, Jimenez JL, Prather KA, Tufekci Z, Fisman D, Schooley R (May 2021). "Ten scientific reasons in support of airborne transmission of SARS-CoV-2". Lancet. 397 (10285): 1603–1605. doi:10.1016/s0140-6736(21)00869-2. PMC 8049599. PMID 33865497.

*3:Bourouiba L (13 July 2021). "Fluid Dynamics of Respiratory Infectious Diseases". Annual Review of Biomedical Engineering. 23 (1): 547–577. doi:10.1146/annurev-bioeng-111820-025044. hdl:1721.1/131115. PMID 34255991. S2CID 235823756. Retrieved 7 September 2021.

*4:Stadnytskyi, Valentyn; Bax, Christina E.; Bax, Adriaan; Anfinrud, Philip (2 June 2020). "The airborne lifetime of small speech droplets and their potential importance in SARS-CoV-2 transmission". Proceedings of the National Academy of Sciences. 117 (22): 11875–11877. doi:10.1073/pnas.2006874117. PMC 7275719. PMID 32404416

*5:Miller SL, Nazaroff WW, Jimenez JL, Boerstra A, Buonanno G, Dancer SJ, et al. (March 2021). "Transmission of SARS-CoV-2 by inhalation of respiratory aerosol in the Skagit Valley Chorale superspreading event". Indoor Air. 31 (2): 314–323. doi:10.1111/ina.12751. PMC 7537089. PMID 32979298.

*6:Communicable Diseases Network Australia. "Coronavirus Disease 2019 (COVID-19): CDNA National Guidelines for Public Health Units". 5.1. Communicable Diseases Network Australia/Australian Government Department of Health.

*7:"Clinical Questions about COVID-19: Questions and Answers". Centers for Disease Control and Prevention. 4 March 2021.

*8:"Scientific Brief: SARS-CoV-2 Transmission". Centers for Disease Control and Prevention. 7 May 2021. Retrieved 8 May 2021.

*9:"Coronavirus disease (COVID-19): How is it transmitted?". World Health Organization. 30 April 2021.

*10:"COVID-19: epidemiology, virology and clinical features". GOV.UK. Retrieved 18 October 2020.

*11:Tang JW, Marr LC, Li Y, Dancer SJ (April 2021). "Covid-19 has redefined airborne transmission". BMJ. 373: n913. doi:10.1136/bmj.n913. PMID 33853842.

*12:Morawska L, Allen J, Bahnfleth W, Bluyssen PM, Boerstra A, Buonanno G, et al. (May 2021). "A paradigm shift to combat indoor respiratory infection" (PDF). Science. 372 (6543): 689–691. Bibcode:2021Sci...372..689M. doi:10.1126/science.abg2025. PMID 33986171. S2CID 234487289.

*13:Meyerowitz EA, Richterman A, Gandhi RT, Sax PE (January 2021). "Transmission of SARS-CoV-2: A Review of Viral, Host, and Environmental Factors". Annals of Internal Medicine. 174 (1): 69–79. doi:10.7326/M20-5008. PMC 7505025. PMID 32941052.

*14:Lessler J, Grantz K. "Overdispersion of COVID-19". Johns Hopkins Bloomberg School of Public Health. Retrieved 11 May 2021.

*15:Liu T, Gong D, Xiao J, Hu J, He G, Rong Z, Ma W (October 2020). "Cluster infections play important roles in the rapid evolution of COVID-19 transmission: A systematic review". International Journal of Infectious Diseases. 99: 374–380. doi:10.1016/j.ijid.2020.07.073. PMC 7405860. PMID 32768702.

*16:感染症を引き起こす病原体に感染した人のうち、通常考えられる以上の二次感染例を引き起こす者