banner
ホームページ / ブログ / MArVD2: ウイルス データセット内の古細菌ウイルスと細菌ウイルスを識別するための機械学習強化ツール
ブログ

MArVD2: ウイルス データセット内の古細菌ウイルスと細菌ウイルスを識別するための機械学習強化ツール

Aug 11, 2023Aug 11, 2023

ISME Communications volume 3、記事番号: 87 (2023) この記事を引用

370 アクセス

10 オルトメトリック

メトリクスの詳細

ウイルス配列空間に関する私たちの知識は、配列決定技術の進歩と大規模なサンプリングおよび分析の取り組みにより爆発的に増加しました。 古細菌は多くの系において重要で豊富な原核生物ですが、極限環境以外の古細菌ウイルスに関する我々の知識は限られています。 これは主に、厳選されたウイルスのデータセット内で細菌ウイルスと古細菌ウイルスを区別するための堅牢でハイスループットかつ体系的な方法が欠如していることに起因しています。 ここでは、新しく厳選された古細菌ウイルスのデータセットに対してランダム フォレスト機械学習アルゴリズムをトレーニングおよびテストすることで、以前のテキストベース ツール (MArVD) をアップグレードします。 最適化後の MArVD2 は、スケーラビリティ、使いやすさ、柔軟性の点で前バージョンに比べて大幅な改善が見られ、古細菌ウイルスの発見が進むにつれてユーザー定義のカスタム トレーニング データセットが可能になります。 ベンチマークの結果、超塩分、海洋、温泉環境からのウイルス配列でトレーニングされたモデルは、別のベンチマーク データセットのランダム フォレスト予測しきい値 80% を使用して、誤検出率 2% 未満で古細菌ウイルスの 85% を正しく分類したことが示されました。同じ生息地。

地球の栄養とエネルギーの循環は、小さな微生物のエンジンによって動かされています [1]。 細菌の研究がより一般的に行われていますが、古細菌も重要であるという認識が高まっています[2、3]。 たとえば、古細菌は中遠洋の微生物群集のほぼ半分を構成する可能性があります[2]。 ここでは、ニトロソスフェリア (以前はタウマルカエオタ) が主要なアンモニア酸化者であり、地球規模の温室効果ガス (N2O) 排出に寄与し、光帯以下の固定窒素損失の大部分を占めています [3,4,5]。 ここ数十年、ニトロソスフェリアが生息する中深海における低酸素領域の気候変動による拡大と、その後のこれらの領域からの温室効果ガス排出量の増加との間のフィードバックにより、世界で最も生産的な海洋環境の一部が危険にさらされている[6,7]。 ,8]。 湿地や永久凍土土壌では、主要なメタン生成菌であるユーリアーキオータが世界のメタン生産量の最大 40% を占め、その多くは共生するメタノトローフによってさらに酸化されます [9]。 世界の土壌炭素の多くは永久凍土地域に蓄えられており、地球温度の上昇に伴い急速に湿地に移行しており、将来的には大気中のメタンの主な発生源となる可能性があるため、これは特に懸念される[10]。 これらおよび他のシステムにおいて古細菌が果たす豊富さと重要な生物地球化学的役割を考慮すると、それらに感染するウイルスに関する知識は、堅牢な生態学的評価と予測気候モデリングにとって不可欠です。

ほとんどの自然生態系において細菌が古細菌と比較して十分に研究されているのと同様に、古細菌ウイルスと比較してバクテリオファージについても同じことが当てはまります。 メタゲノム配列決定、エコゲノミクスのサンプルから配列へのパイプライン、ウイルス同定のベストプラクティス [11、12、13、14]、およびこれらの機能を民主化した iVirus などの分析プラットフォーム [15、16] の進歩により、以下の発見が可能になりました。世界中の環境からの数十万の細菌ウイルス、またはファージ [17、18、19、20]。 これらのファージは、地球規模の海洋炭素循環などの重要な生態系機能に影響を与える形で、宿主の死亡率、遺伝子の水平伝達、代謝の再プログラミングに大きな影響を与えていると考えられている[21,22,23,24,25,26,27]。 このように、ファージを「見る」私たちの能力は強力であり、その結果、ファージが生態系にどのような影響を与えるかについての理解が飛躍的に進歩しました。

対照的に、酸性温泉、高塩分池、嫌気性堆積物、熱水噴出孔などの「極限」環境で伝統的に研究されてきた古細菌ウイルスは、地球規模のメタゲノムに基づく研究のほとんどで著しく過小評価されている[29、30、31、 32、33]。 例えば、現在までに、複数のメタゲノミクス対応研究や培養ベースの研究の中で、極秘に同定された海洋古細菌ウイルスは 230 未満です [18、32、34、35、36、37、38、39、40、41、42]。一方、最近の単一の世界的な海洋調査では、48万8,000を超えるウイルス集団が明らかになり、そのほとんどはファージであると推定されています[17]。 合計すると、現在、十分に文書化されたゲノムまたは大きなゲノム断片が約 380 未満の古細菌ウイルスから入手可能であり、IMG/VR-db v3.0 にはさらに 6027 の推定古細菌ウイルスが含まれていると我々は推定しています [43] が、これはごく一部です現在ファージで利用可能な数十万の集団ゲノムと比較した場合 [17、18、19、20]。 これについての説明としては、新規古細菌ウイルスの発見は主に、極限環境からのウイルスが登録されている公的参照データベースに対する配列相同性検索に基づいており、多くの古細菌ウイルスはこれらの参照文献との相同性を欠いているということが考えられる[44]。 これらの「極端な」古細菌ウイルスは、それらが示す信じられないほど多様な形態やライフスタイルに関係なく、おそらく、比較的極端ではない環境からの古細菌ウイルスを代表するものではありません[29、45、46、47、48]。 したがって、ファージと古細菌ウイルスの間にはゲノム上および進化上の明らかな違いがあるにもかかわらず、現在のアプローチを使用して比較的非極限環境からのデータセット内でバクテリオファージと古細菌ウイルスを区別することは依然として課題である[29、45、46、49、50、51、52] ]。 その結果、比較的極端ではない環境における古細菌ウイルスの生態学的役割は、生物地球化学的循環や宿主群集の動態に不可欠である可能性を示唆する証拠があるにもかかわらず、ほとんど不明のままである[36、53、54、55]。

10kbp (Fig. 6A and C). The exception to this was SPEC which remained high and nearly unchanged across the variable sequence size fractioned datasets (1 kb, 2.5 kb, 5 kb, 7.5 kb, 10 kb, >10 kb). Further, the FDR stayed relatively low across all fragment sizes, never exceeding 15% (Fig. 6A, C)./p>10 kbp./p>50 and evalue >0.001. These annotations are then integrated into the VirSorter “affi_contigs.csv” gene annotation file retaining the VirSorter derived Pfam [86] designations >40 bitscore and <0.00001 evalue. Using this updated per gene annotation file, MArVD functions exactly as its first inception [32]. Only MArVD category 1 and 2 putative archaeal viruses, corresponding to viruses having over 66 or 50% of their annotated genes affiliating with archaeal viruses respectively, and with bitscore >75 and higher than those for the phage affiliations, were retained as MArVD predicted archaeal viruses. This updated version of MArVD enabled the creation of the new environmental archaeal virus datasets from the ETSP and GOV2.0 datasets needed to train and test MArVD2 as well as allows for a means to compare the performance of MArVD with MArVD2./p>10 kb lengths. For the >10kbp size fraction, a second test dataset with various amounts of microbial sequences was included with equal proportions of bacteria and archaea. Genomic fragments from microbial sequences were randomly selected from the IMG/M [79] database and only included if their size was between 10 kb and 200 kb. Microbial sequences were added at 10, 25, 50, 75, and 95% of the total data. Microbial sequences were ensured not to be viral by use of VirSorter. Dataset size in terms of the number of contigs was also tested with the benchmarking dataset being broken into sets 10, 25, 50, 75, and 95% of the total number of contigs from the original validation dataset./p>