京橋のバイオインフォマティシャンの日常

データ分析、コマンドライン、プログラミングについての技術資料・自己アップデート・悩み事などをまとめています。最近、ディープラーニング関連のR言語の資料をまとめるべく注力してます。

Wikipedia 英語記事「COVID-19」の日本語訳を公開してみた【その3: COVID感染症の病態生理】

この記事は、2021年12月30日現在のWikipedia 英語記事「COVID-19」を日本語訳したものである。

en.wikipedia.org

この情報は英語ページにはありますが、まだ日本語ページは存在していません。結構しっかりした内容だったので、このwikipedia記事の日本語訳を作成することにしました。

コロナ関連の情報はすぐに古くなりますので、その都度、新しい情報を確認してください。

Pathophysiology / 病態生理

SARS-CoV-2ウイルス(COVID-19)は、生体内の様々な細胞やシステムに感染する。 COVID-19は、上気道(副鼻腔、鼻、喉)および下気道(気管および肺)に感染することがよく知られている*1。 肺は、COVID-19の影響を最も受ける臓器である。 なぜなら、ウイルスは、肺のII型肺胞細胞の表面に最も豊富に存在する、アンジオテンシン変換酵素2(ACE2)の受容体を介して、宿主細胞にアクセスする*2。 ウイルスは、「スパイク」と呼ばれる、特殊な表面糖タンパク質を用いて、ACE2受容体とコネクトして、宿主細胞に侵入する*3

f:id:skume:20220101233821j:plain
COVID-19の病原性。(1A)COVID-19ウイルスは、エンドサイトーシス(endocytosis)あるいはACE2受容体に結合して膜融合を介して、上皮細胞に侵入し、ウイルスのRNAを細胞質内に放出する。(1B)ウイルスRNAは、細胞のシステムを利用して、ウイルスの非構造タンパク質や構造タンパク質を翻訳し、そのRNAを複製する。(1C)ウイルスの構造タンパク質S、E、Mは粗面小胞体(RER)で合わさる。(1D)その後、ウイルス構造とヌクレオキャプシドが小胞体ゴルジ体中間体(ERGIC)で集合体になる。(1E)ゴルジ小胞にパックされた、新しいウイルスは細胞膜と融合し、エキソサイトーシスを介して放出される。(2)COVID-19感染により炎症因子が誘導され、マクロファージや樹状細胞の活性化を引き起こす。(3)主要組織適合性複合体IおよびII(MHC IおよびII)を介した、COVID-19ウイルスの抗原提示は、体液性および細胞性免疫を刺激し、サイトカインおよび抗体の産生をもたらす。(4)COVID-19の重症例では、ウイルスは下気道に到達し、II型肺細胞に感染して、アポトーシスと表面活性物質(surfactant)の損失を引き起こす。マクロファージと好中球が流入して、サイトカインストーム*4を引き起こす。毛細血管の漏出により、肺胞水腫(alveolar edema)が生じる。ヒアルロン酸膜が形成される。これらの病理学的変化のすべては、肺胞のダメージや崩壊をもたらし、ガス交換を障害する。(出典元

前の記事

skume.net

skume.net

*1:Harrison AG, Lin T, Wang P (December 2020). "Mechanisms of SARS-CoV-2 Transmission and Pathogenesis". Trends in Immunology. 41 (12): 1100–1115. doi:10.1016/j.it.2020.10.004. PMC 7556779. PMID 33132005.

*2:Verdecchia P, Cavallini C, Spanevello A, Angeli F (June 2020). "The pivotal link between ACE2 deficiency and SARS-CoV-2 infection". European Journal of Internal Medicine. 76: 14–20. doi:10.1016/j.ejim.2020.04.037. PMC 7167588. PMID 32336612.

*3:Letko M, Marzi A, Munster V (April 2020). "Functional assessment of cell entry and receptor usage for SARS-CoV-2 and other lineage B betacoronaviruses". Nature Microbiology. 5 (4): 562–569. doi:10.1038/s41564-020-0688-y. PMC 7095430. PMID 32094589.

*4:感染症などによって、サイトカイン(IL-1,IL-6,TNF-αなど)が異常に上昇して、その作用が全身に及ぶことで、好中球の活性化、血液凝固機構活性化、血管拡張などを全身に起こり、多臓器不全にまで進行する。この状態を、サイトカインストーム(cytokine storm)という。

Wikipedia 英語記事「COVID-19」の日本語訳を公開してみた【その2: COVIDの伝染】

f:id:skume:20220115232253p:plain

はじめに

この記事は、2021年12月30日現在のWikipedia 英語記事「COVID-19」を日本語訳したものである。

en.wikipedia.org

この情報は英語ページにはありますが、まだ日本語ページは存在していません。結構しっかりした内容だったので、このwikipedia記事の日本語訳を作成することにしました。

コロナ関連の情報はすぐに古くなりますので、その都度、新しい情報を確認してください。

Transmission / 伝染

f:id:skume:20220101024130j:plain
COVID-19の感染について。ウイルスの人体への感染は、ウイルスを含む飛沫(5μm以上)やエアロゾル(5μm未満)を産生する、感染者の咳やくしゃみによって発生する。人から人へのウイルス感染は、直接/間接的な接触と空気中のエアロゾル/飛沫の経路で起こる。大きな飛沫は主に空気中から沈降し、人・物の汚染を引き起こす。一方、エアロゾルは空気中に効率的に拡散する。直接感染は近距離で、空気感染は遠距離・長時間で発生する。空気中を浮遊するウイルスは、ヒトに吸入されると呼吸器官に直接沈着する。(出典元

f:id:skume:20220101024156j:plain
より大きな飛沫とエアロゾルを包含する、COVID-19の呼吸器感染経路について。(出典元

COVID-19感染症は主に、感染した人が呼吸、会話、咳、くしゃみ、歌うときに吐き出す飛沫や小さな空気中の粒子(エアロゾルを形成する)を吸い込むことによって、呼吸器系の経路を介して感染する *1 *2 *3 *4。 感染した人が物理的に近くにいると、COVID-19はより感染しやすくなる。 感染は、特に屋内では、より長い距離でも起こりうる *5

感染力は、症状が出る1~3日前に生じる*6。 感染者は、前症状や無症状であっても、病気を広げる。 最も一般的には、上気道のウイルス量のピークは症状がでた時近くに起こり、発症後1週間を過ぎると減少する。 現在のところ、ウイルスの排出期間および感染可能期間は、軽度から中等度のCOVID-19の患者では発症後最大10日間、免疫不全者を含む重度のCOVID-19の患者では最大20日間であることが示唆されている*7

感染性粒子の大きさは、長時間空気中に浮遊するエアロゾルから、空気中に留まったり地面に落下したりする大きな飛沫まで、さまざまである*8 *9 *10 *11。 さらに、COVID-19の研究により、呼吸器系ウイルスの感染経路に関する従来の理解が再定義された*12。 呼吸液の最大の飛沫はそう遠くまで移動せず、吸い込んだり、目や鼻、口の粘膜に付着して感染する。 エアロゾルは人が近づいたときに最も濃度が高くなるため、人同士が物理的に近づいたときにウイルスが感染しやすくなる。 空気感染は、主に換気の悪い場所で、より長い距離で起こりうる。 そのような条件下では、小さな粒子が数分から数時間空気中に浮遊したままになることがある。

一般に、感染者一人から伝染する人数は様々であり*13、10~20%の人だけが感染拡大の原因となっている*14。 多くの場合、クラスター感染で広がり、指標となる症例や地理的な場所まで感染を遡ることができる*15。 このような場合、多くの人に感染を引き起こす、スーパー・スプレッダー*16がしばしば発生する。

その3に続く

skume.net

*1:Wang CC, Prather KA, Sznitman J, Jimenez JL, Lakdawala SS, Tufekci Z, Marr LC (August 2021). "Airborne transmission of respiratory viruses". Science. 373 (6558). Bibcode:2021Sci...373.....W. doi:10.1126/science.abd9149. PMID 34446582.

*2:Greenhalgh T, Jimenez JL, Prather KA, Tufekci Z, Fisman D, Schooley R (May 2021). "Ten scientific reasons in support of airborne transmission of SARS-CoV-2". Lancet. 397 (10285): 1603–1605. doi:10.1016/s0140-6736(21)00869-2. PMC 8049599. PMID 33865497.

*3:Bourouiba L (13 July 2021). "Fluid Dynamics of Respiratory Infectious Diseases". Annual Review of Biomedical Engineering. 23 (1): 547–577. doi:10.1146/annurev-bioeng-111820-025044. hdl:1721.1/131115. PMID 34255991. S2CID 235823756. Retrieved 7 September 2021.

*4:Stadnytskyi, Valentyn; Bax, Christina E.; Bax, Adriaan; Anfinrud, Philip (2 June 2020). "The airborne lifetime of small speech droplets and their potential importance in SARS-CoV-2 transmission". Proceedings of the National Academy of Sciences. 117 (22): 11875–11877. doi:10.1073/pnas.2006874117. PMC 7275719. PMID 32404416

*5:Miller SL, Nazaroff WW, Jimenez JL, Boerstra A, Buonanno G, Dancer SJ, et al. (March 2021). "Transmission of SARS-CoV-2 by inhalation of respiratory aerosol in the Skagit Valley Chorale superspreading event". Indoor Air. 31 (2): 314–323. doi:10.1111/ina.12751. PMC 7537089. PMID 32979298.

*6:Communicable Diseases Network Australia. "Coronavirus Disease 2019 (COVID-19): CDNA National Guidelines for Public Health Units". 5.1. Communicable Diseases Network Australia/Australian Government Department of Health.

*7:"Clinical Questions about COVID-19: Questions and Answers". Centers for Disease Control and Prevention. 4 March 2021.

*8:"Scientific Brief: SARS-CoV-2 Transmission". Centers for Disease Control and Prevention. 7 May 2021. Retrieved 8 May 2021.

*9:"Coronavirus disease (COVID-19): How is it transmitted?". World Health Organization. 30 April 2021.

*10:"COVID-19: epidemiology, virology and clinical features". GOV.UK. Retrieved 18 October 2020.

*11:Tang JW, Marr LC, Li Y, Dancer SJ (April 2021). "Covid-19 has redefined airborne transmission". BMJ. 373: n913. doi:10.1136/bmj.n913. PMID 33853842.

*12:Morawska L, Allen J, Bahnfleth W, Bluyssen PM, Boerstra A, Buonanno G, et al. (May 2021). "A paradigm shift to combat indoor respiratory infection" (PDF). Science. 372 (6543): 689–691. Bibcode:2021Sci...372..689M. doi:10.1126/science.abg2025. PMID 33986171. S2CID 234487289.

*13:Meyerowitz EA, Richterman A, Gandhi RT, Sax PE (January 2021). "Transmission of SARS-CoV-2: A Review of Viral, Host, and Environmental Factors". Annals of Internal Medicine. 174 (1): 69–79. doi:10.7326/M20-5008. PMC 7505025. PMID 32941052.

*14:Lessler J, Grantz K. "Overdispersion of COVID-19". Johns Hopkins Bloomberg School of Public Health. Retrieved 11 May 2021.

*15:Liu T, Gong D, Xiao J, Hu J, He G, Rong Z, Ma W (October 2020). "Cluster infections play important roles in the rapid evolution of COVID-19 transmission: A systematic review". International Journal of Infectious Diseases. 99: 374–380. doi:10.1016/j.ijid.2020.07.073. PMC 7405860. PMID 32768702.

*16:感染症を引き起こす病原体に感染した人のうち、通常考えられる以上の二次感染例を引き起こす者

Wikipedia 英語記事「COVID-19」の日本語訳を公開してみた【その1: COVIDの概要】

この記事は、2021年12月30日現在のWikipedia 英語記事「COVID-19」を日本語訳したものである。

en.wikipedia.org

この情報は英語ページにはありますが、まだ日本語ページは存在していません。結構しっかりした内容だったので、このwikipedia記事の日本語訳を作成することにしました。

コロナ関連の情報はすぐに古くなりますので、その都度、新しい情報を確認してください。

概要

f:id:skume:20211231231513j:plain
SARS-CoV-2感染症を引き起こすCOVID-19の感染とライフサイクル。COVID-19は、感染者の呼吸器飛沫を介して、口腔粘膜や呼吸器粘膜細胞に感染する。このCOVID-19ウイルスは、ヌクレオキャプシド(N)タンパク質および3つの主要な表面タンパク質(膜(M)、エンベロープ(E)、スパイク)で包まれた一本鎖RNAゲノムを持つ。ウイルスが増殖して、下気道を通過して重症肺炎を引き起こす。宿主細胞への侵入経路(拡大図)では、アンジオテンシン変換酵素II(ACE2)との相互作用を介する。プロテアーゼTMPRSS-2/furinによる前駆状態でのSpikeの切断が行われる。ウイルスのライフサイクルを簡略化し、起こりうる免疫反応を示した。(出典元

コロナウイルス感染症 2019(COVID-19)は、重症急性呼吸器症候群コロナウイルス2型(SARS-CoV-2)を原因ウイルスとする伝染病である。 最初の症例は、2019年12月に中国の武漢で確認されました*1。 その後、この感染症は世界中に広がり、現在(2021年12月末)も大流行している*2

COVID-19の症状は様々であるが、頻繁に、発熱、咳、頭痛、疲労、呼吸困難、および嗅覚・味覚障害を含まれる*3 *4 *5 *6 *7。 症状は、コロナウイルスに感染してから、1〜14日後に発症する。 感染した人の少なくとも3分の1は、目立った症状を発症しない*8。 患者として認められるほどの顕著な症状を呈した人のうちで、大半の人(81%)が軽度から中等度の症状(軽度の肺炎まで)、14%の人が重度の症状(呼吸困難、低酸素、画像上で50%以上の肺病変)、5%の人が重篤な症状(呼吸不全、ショック、あるいは多臓器不全)を呈した*9 。 高齢者は重度の症状を呈するリスクが高い。また、回復後も数ヶ月にわたって様々な影響(long COVID)を受け続ける人もおり、臓器へのダメージも見られる*10。 長期的な影響をさらに調査するため、複数年にわたる研究が進められている。

COVID-19は、ウイルスを含む飛沫や空気中の小さな粒子で汚染された空気を吸い込むと感染する。 これらを吸い込む危険性は、人が近くにいるときに最も高くなるが、特に室内では長い距離でも吸い込む可能性がある。 また、汚染された液体が目、鼻、口にかかったり、噴霧されたりした場合、稀に汚染された表面を介して感染することがある。 人からの伝染力は最大20日間持続し、症状が出なくてもウイルスを拡散させる可能性がある*11 *12

このCOVID-19感染症を診断するために、いくつかの検査方法が開発されている。 標準的な診断方法は、鼻咽頭のぬぐい液からリアルタイム逆転写ポリメラーゼ連鎖反応(rRT-PCR)、転写媒介増幅(TMA)、逆転写ループ媒介等温増幅(RT-LAMP)によりウイルスの核酸を検出する方法である。

数種類のCOVID-19ワクチンが承認され、各国で配布され、大規模なワクチン接種キャンペーンが開始されている。 他の予防法としては、身体的またはソーシャルディスタンスを置くこと、隔離すること、室内空間の換気、咳やくしゃみを覆うこと、手洗い、洗っていない手を顔から離すことなどがある。 感染のリスクを最小限に抑えるために、公共の場では、フェイスマスクやカバーの使用が推奨されている。 ウイルスを抑え込む薬剤の開発が進められる一方、現在の主な治療法は対症療法である。 管理には、症状に対する治療、支持療法、隔離、実験的措置が含まれる。

その2に続く

skume.net

*1:Page J, Hinshaw D, McKay B (26 February 2021). "In Hunt for Covid-19 Origin, Patient Zero Points to Second Wuhan Market – The man with the first confirmed infection of the new coronavirus told the WHO team that his parents had shopped there". The Wall Street Journal. Retrieved 27 February 2021.

*2:Zimmer C (26 February 2021). "The Secret Life of a Coronavirus – An oily, 100-nanometer-wide bubble of genes has killed more than two million people and reshaped the world. Scientists don't quite know what to make of it". Archived from the original on 28 December 2021. Retrieved 28 February 2021.

*3:Islam MA (April 2021). "Prevalence and characteristics of fever in adult and paediatric patients with coronavirus disease 2019 (COVID-19): A systematic review and meta-analysis of 17515 patients". PLOS ONE. 16 (4): e0249788. Bibcode:2021PLoSO..1649788I. doi:10.1371/journal.pone.0249788. PMC 8023501. PMID 33822812.

*4:Islam MA (November 2020). "Prevalence of Headache in Patients With Coronavirus Disease 2019 (COVID-19): A Systematic Review and Meta-Analysis of 14,275 Patients". Frontiers in Neurology. 11: 562634. doi:10.3389/fneur.2020.562634. PMC 7728918. PMID 33329305.

*5:Saniasiaya J, Islam MA (April 2021). "Prevalence of Olfactory Dysfunction in Coronavirus Disease 2019 (COVID-19): A Meta-analysis of 27,492 Patients". The Laryngoscope. 131 (4): 865–878. doi:10.1002/lary.29286. PMC 7753439. PMID 33219539.

*6:Saniasiaya J, Islam MA (November 2020). "Prevalence and Characteristics of Taste Disorders in Cases of COVID-19: A Meta-analysis of 29,349 Patients". Otolaryngology–Head and Neck Surgery. 165 (1): 33–42. doi:10.1177/0194599820981018. PMID 33320033. S2CID 229174644.

*7:Agyeman AA, Chin KL, Landersdorfer CB, Liew D, Ofori-Asenso R (August 2020). "Smell and Taste Dysfunction in Patients With COVID-19: A Systematic Review and Meta-analysis". Mayo Clin. Proc. 95 (8): 1621–1631. doi:10.1016/j.mayocp.2020.05.030. PMC 7275152. PMID 32753137.

*8:Oran DP, Topol EJ (January 2021). "The Proportion of SARS-CoV-2 Infections That Are Asymptomatic : A Systematic Review". Annals of Internal Medicine. 174 (5): M20-6976. doi:10.7326/M20-6976. PMC 7839426. PMID 33481642.

*9:"Interim Clinical Guidance for Management of Patients with Confirmed Coronavirus Disease (COVID-19)". U.S. Centers for Disease Control and Prevention (CDC). 6 April 2020. Archived from the original on 2 March 2020. Retrieved 19 April 2020.

*10:CDC (11 February 2020). "Post-COVID Conditions". U.S. Centers for Disease Control and Prevention (CDC). Retrieved 12 July 2021.

*11:CDC (11 February 2020). "Coronavirus Disease 2019 (COVID-19)". U.S. Centers for Disease Control and Prevention (CDC). Retrieved 6 December 2020.

*12:Clinical Questions about COVID‑19: Questions and Answers US Centers for Disease Control and Prevention

最も重要な ribosomal RNA(rRNA)の1つである『16S rRNA』の生命科学的な話

f:id:skume:20220115194522p:plain

リボソームは、細胞内のタンパク質の合成装置である

まず、リボソーム(ribosome)について概説します。

f:id:skume:20211230204501p:plain:w500
リボソームでは、mRNAの情報を読み取り、tRNAに結びついたアミノ酸から所定のタンパク質を合成する。(出典元

細胞の核内で、DNAの二重螺旋構造が部分的にほどけて、一本鎖のDNAが剥き出しになると、 そこに、RNAポリメラーゼが結合して、そのDNA鎖に相補的なRNA鎖が合成される。 このRNA鎖が、遺伝情報の運び屋であるmRNA(メッセンジャーRNA、伝令RNA)として働き、 細胞外に移行して、細胞質にあるリボソームへと送られる。

リボソームでは、mRNAの塩基配列が解読されて、 tRNA(トランスファーRNA、転移RNA)によって運ばれてくる、 アミノ酸(タンパク質の材料となる)を塩基配列に対応する順番にペプチド結合させ、 タンパク質(ポリペプチド)を合成していく。

これらの過程において、 DNAの一部の遺伝情報を使ってRNAを合成することを「転写」といい、 RNAの配列を基にタンパク質を生合成することを「翻訳」と呼ぶ。

リボソーマルRNA(rRNA)

rRNAとは、タンパク合成の場である、リボソームを構成するRNAである。 rRNAは、RNAのうちで、生体内でもっとも多く存在する(約 70-80 %)。

原核生物では、リボソームの大サブユニット(50Sサブユニット )に23Sと5SのrRNAが含まれ、 また小サブユニット(30Sサブユニット)に16S rRNAが含まれる。 それぞれのSは、沈降係数(Sedimentation coefficient)に由来し、つまりは高分子の下降速度を反映した指標(タンパク質の大きさと相関がある)である。 これらrRNAをコードするのが、rRNA遺伝子 (rDNA) である。

f:id:skume:20211230210833j:plain:w500
rDNA遺伝子群の模式図(出典元

16S rRNA とは??

16S rRNAは、原核生物のリボソーム小サブユニット(30Sサブユニット)を構成するrRNAであり、 すべての原核生物のタンパク質の合成に必要である。 16S rRNA遺伝子は、rRNAをコードする遺伝子(rDNA)であり、すべての細菌のゲノム中に存在する。 16S rRNAは高度に保存された特異的な配列であり、その配列の長さは約 1500 塩基である。

一般的に、16S rRNA遺伝子領域の進化速度が遅いことから、系統樹の復元に利用される。 つまりは、16S rRNA遺伝子配列の差異情報を利用して、細菌などの生物種の同定が行われる

f:id:skume:20211230211025g:plain:w350
Thermus thermophilus由来30S Subunitの分子構造。タンパク質は青色、一本鎖RNAはオレンジ色で示す。(出典元

f:id:skume:20211230211043p:plain:w350
様々な種のrRNA(出典元

16S rRNAの特徴

原核生物(細菌を含む)の16S rRNAには、以下のような特徴がある。

  • ゲノム中に複数のコピーが存在: 1つの細菌に、5〜10コピーの16S rRNA遺伝子が存在する。

  • 可変領域と保存領域: 16S rRNA遺伝子の塩基配列は、可変領域(Variable regions)と保存領域(Constant region)から構成される。保存領域は全ての細菌に共通で、可変領域は細菌の属や種で特異性で、細菌それぞれを分類する程度の差がある。また、可変領域と保存領域は交錯して存在する。したがって、保存領域を利用してユニバーサルプライマーを設計できる。また、可変領域を利用することで、特定の細菌・微生物の特異的プライマーを設計することができる。

f:id:skume:20211230214011p:plain
最もよく配列決定されている可変領域の1つである、V3-V4領域(約 469 塩基)を利用したプライマー設計の模式図(出典元

  • 中程度の配列長: 16S rRNA遺伝子の長さは約1500塩基で、約50の機能ドメインが含まれる。

  • 16S rRNAの機能: (1)リボソームタンパク質を固定化し、足場として機能する。(2)3'末端にはreverse SD配列があり、mRNAのAUG開始コドンに結合するために使われる。16S rRNA の 3'末端と S1、S21 の組み合わせは、タンパク質合成の開始に関係する。(3)23S rRNAと相互作用して、リボソームサブユニット間の統合を助ける。

16S rRNA 遺伝子検出と次世代シーケンスの利用

16S rRNA 遺伝子の配列には、 高度に保存された塩基配列(保存領域、プライマー結合部位)に加えて、 細菌の同定に有用な種特異的配列(可変領域)が含まれている。

当初、16S rRNAの配列情報は、細菌の同定に主に使用されていたが、 その後、細菌をまったく新しい種、あるいは属に再分類できることも分かった。 また現在では、これまで培養に成功していない新種の発見や論拠にも利用される。

16S rRNA遺伝子の検出技術は、病原体の検出と同定のための強力なツールとなっている。 遺伝子検出技術に加えて、データベースとの照合により、病原体の分類、同定、検出を迅速、正確、かつ確実に行うことができる。

遺伝子検出の主なステップとしては、(1)細菌・微生物からのゲノムDNAの取得、(2)16S rRNA遺伝子の可変領域断片の取得、(3)取得された遺伝子断片の塩基配列解析が行われる。

さらに次世代シーケンスの登場によって、より安価かつ簡便に多くの配列決定が可能となり、 何千もの16S rRNAシーケンスを同時に特定できるため、 例えば、腸内フローラなどのメタゲノム研究にも応用可能となっている。

まとめ

リボソームを構成するrRNAは、すべての生物の生存に不可欠なものである。

16S rRNAは、細菌や他の微生物の進化の過程で高度に保存され、「分子の化石」とも呼ばれる。 それと同時に、その保存性は相対的なものであり、保存領域間に存在する領域には、9〜10個の変異領域(V1〜V10)が存在する。これらの遺伝子情報は、細菌の科、属、種を同定・分類するのに十分な程度の違いが認められる。

16S rRNAは細菌・微生物の分類のためのマーカーであると同時に、病原体の検出・同定のための標的分子としても利用できる。

参考資料

www.cd-genomics.com

en.wikipedia.org

Mac版のSRA Toolkitを設定して、fastq-dumpを使ってみた件

f:id:skume:20220115212353p:plain

はじめに - SRA Toolkitについて -

SRA Toolkitは、NCBIのデータベースである、Sequence Read Archivesのデータを扱うためのツール群である。 もっと簡単に言うと、コマンドラインでシークエンス・データを取得・処理するための、入れておくと便利なツール群である。

現状、WEBブラウザ(GUI)では、 NCBIのWebアーカイブからFASTQファイルをダウンロードできない仕様のようで、 その代わり、CUIのSRA Toolkitが用意されているようだ。

github.com

SRA Toolkitは、コマンド操作に慣れていれば、 ソースファイルをダウンロードして、比較的簡単に設定ができる。

wgetコマンドを使って、SRA Toolkitを取得する

まずはターミナルを起動して、wgetで、Mac用のSRA Toolkitファイルをダウンロードして、 圧縮ファイルをtarコマンドで解凍する。

あるいは、wgetを使わなくても、openでもダウンロード可能である。

#ダウンロード
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-mac64.tar.gz

#あるいは
open http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-mac64.tar.gz
#でも可

#tar.gzを解凍する
tar -zxvf sratoolkit.current-mac64.tar.gz

#使わない、圧縮ファイルを削除する
rm -rf sratoolkit.current-mac64.tar.gz

次に、sratoolkit.current-mac64のソースファイルを任意のフォルダに移動させる。 今回は、アプリケーション・フォルダ(/Applications)に移動させ、続きの設定を行う。

#アプリケーション・フォルダに移動させる
mv -f sratoolkit.2.11.2-mac64 /Applications

sratoolkit.2.11.2-mac64のパス設定

fastq-dumpのパス設定を見てみると、 当然ながら、まだ設定されていない。

# fastq-dumpのパス確認
which fastq-dump
#fastq-dump not found

最近のMacでは、zshがデフォルトシェルになっているので、 ホームディレクトリにある.zshrcにパス設定を追記する。

.zshrcがない場合でも、同じ実行コマンドで、.zshrcが作成されて書き込みされる(はず)。

#パス設定の追記
echo "export PATH=$PATH:/Applications/sratoolkit.2.11.2-mac64/bin" >> ~/.zshrc

#追記されたか確認
cat ~/.zshrc
#export PATH=/opt/homebrew/bin:/opt/homebrew/sbin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:/Applications/sratoolkit.2.11.2-mac64/bin
#な感じ行が書き込まれてたら、OK

#即時適用する
source ~/.zshrc

#パス出力
echo $PATH

# fastq-dumpのパス確認
which fastq-dump
#/Applications/sratoolkit.2.11.2-mac64/bin/fastq-dump

「which fastq-dump」が無事に通れば、パスの設定はOKである。

SRA Toolkitでよく使うツール

このセクションでは、SRA Toolkitでよく使われると思われるコマンドを概説した。

今回は、vdb-configfastq-dumpのコマンドを試す。

  • vdb-config : VDBの設定情報の表示と変更

  • fastq-dump : SRAデータをFASTQ形式に変換する

  • prefetch : SRA、dbGaP、ADSPデータのコマンドラインダウンロードを行う

  • sam-dump : SRAデータをsam形式に変換する

  • sra-pileup : アラインメントされたSRAデータのパイルアップ統計を生成する

  • vdb-decrypt : non-SRA dbGaP data ("phenotype data")の復号化

fastq-dumpを使って、NCBIからシークエンスデータをダウンロードする

fastq-dumpコマンドは、NCBIのデータリポジトリからSRA データをダウンロードして、 その後、得られたSRA形式(.sra)を自動的にFASTQファイル(.fastq)に変換してくれる非常に役に立つコマンドである。

シングルリード・シークエンスデータ取得の実施例として、 The microbial communityが公開しているSRR17327096をダウンロードして、FASTQファイルへの変換を試みる。

f:id:skume:20211227235120p:plain:w500

fastq-dumpの最もシンプルな文法は、 Run ID (e.g. SRR17327096)との組み合わせである。

fastq-dump SRR17327096

しかしながら、、初めに、fastq-dumpコマンドを実行すると、以下のようなエラーメッセージが表示されるだろう。

This sra toolkit installation has not been configured.
Before continuing, please run: vdb-config --interactive
For more information, see https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/

このメッセージがでたら、SRA configurationを行うために、 そのまま続けて、以下のコマンドを実行する。

vdb-config --interactive

これを実行すると、ターミナル上に、下記の青い画面が表示される。

f:id:skume:20211227235437p:plain:w500

やや奇怪な表示であるが、何てことはない。 ここで、「x」を押すと、「Enable Remote Access」の設定が完了する。

これで、NCBIからSRAがダウンロードできる環境設定になっている。

SRAを取得して、FASTQファイルに変換するコマンド(シングルリードの設定)

上記と同じであるが、fastq-dumpの文法は、Run ID(アクセッション番号)を指定して実行するだけである。

#ダウンロード
fastq-dump SRR17327096

#head表示(一部)
head -n 4 SRR17327096.fastq
#@SRR17327096.1 1 length=488
#CCTACGGGAGGCAGCAGTGAGGAATATTGGTCAATGGGCGAG
#+SRR17327096.1 1 length=488
#FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF

実行の結果、「SRR17327096.fastq」がローカルディレクトリに作成される。

約116MBのFASTQファイルが生成され、実行時間としては10-15秒くらいかかる。

gz圧縮形式で、FASTQファイルを取得するコマンド(シングルリードの設定)

--gzipをつけることで、gz圧縮形式で取得することもできる。

#ダウンロード + gz圧縮
fastq-dump --gzip SRR17327096

FASTA形式でダウンロードする

デフォルト設定で取得される、FASTQファイルだと結果が冗長となる。 そこで、クオリティデータがない、FASTA形式でダウンロードするには、 --fastaオプションをつける。

--fastaオプションで、1行あたりの塩基数を設定する。

例えば、--fasta 60で、1行あたり60塩基のFASTAファイルに変換できる。

#1行60ベースのFASTA取得
fastq-dump --fasta 60 SRR17327096

#head表示
head SRR17327096.fasta 
#>SRR17327096.1 1 length=488
#CCTACGGGAGGCAGCAGTGAGGAATATTGGTCAATGGGCGAGAGCCTGAACCAGCCAAGT
#AGCGTGAAGGATGACTGCCCTATGGGTTGTAAACTTCTTTTATAAAGGAATAAAGTCGGG
#TATGCATACCCGTTTGCATGTACTTTATGAATAAGGATCGGCTAACTCCGTGCCAGCAGC
#CGCGGTAATACGGAGGATCCGAGCGTTATCCGGATTTATTGGGTTTAAAGGGAGCGTAGA
#TGGAGGACTACTCGGGTATCTAATCCTGTTTGATACCCACACTTTCGAGCCTCAATGTCA
#GTTGCAGCTTAGCAGGCTGCCTTCGCAATCGGAGTTCTTCGTGATATCTAAGCATTTCAC
#CGCTACACCACGAATTCCGCCTGCCTCAACTGCACTCAAGATATCCAGTATCAACTGCAA
#TTTTACGGTTGAGCCGCAAACTTTCACAACTGACTTAAACATCCATCTACGCTCCCTTTA
#AACCCAAT

FASTQは@を、FASTAは>をデータの先頭としてそれぞれ始まる。

また、FASTA形式の場合も、--gzipをつけることで、gz圧縮が可能である。

#1行60ベースのFASTA取得 + gz圧縮
fastq-dump --gzip --fasta 60 SRR17327096

初めの5リードをFASTQにして標準出力するコマンド(シングルリードの設定)

SRAの一部のリードだけを読み込み、ターミナル上に表示だけしたい場合には、-Xや-Zのオプションを使用する。

fastq-dump -X 5 -Z SRR17327096 

この設定の場合、標準出力だけで、ローカルにファイルは保存されない。

fastq-dumpの基本形

Usage:
fastq-dump [options] <path/file> [<path/file> ...]
fastq-dump [options] <accession>

fastq-dumpの代表的なオプション

オプション 概要
-h ヘルプ表示
-V プログラムのバージョンを表示
--split-files ペアードエンド・リード用のオプション。各リードを別々のファイルにダンプする。ファイルにはリード番号に対応するサフィックスが付く。
--fasta <塩基数> FASTQ変換。1行あたりの塩基数を指定。
-F Deflineにオリジナルの配列名のみを表示する。
-N ダンプされる最小スポットID。範囲を指定してダンプする場合は、"X "と一緒に使用する。
-X ダンプされる最大スポットID。範囲を指定してダンプする場合は、"N "と一緒に使用する。
-Z 標準出力に出力する。分割されたデータはすべて1つのストリームに結合されます。
-O 出力ディレクトリ。デフォルトは現在の作業ディレクトリ ('.')。
--gzip ファイルをgz圧縮形式で出力
--bzip2 ファイルをbzip2圧縮形式で出力

まとめ

シークエンスデータのRun IDが分かれば、 簡単にFASTQファイル・FASTAファイルが取得できるのは結構便利である。

一方で、1回のコマンド実行で、 複数のFASTQファイルをダウンロード・処理できないようなので、 別途、複数ダウンロード用のスクリプトを組み必要がありそうだ。

参考資料

github.com

kimbio.info

trace.ncbi.nlm.nih.gov