跳至內容

基因組分類學資料庫

維基百科,自由的百科全書
基因組分類學資料庫
內容
獲取的數據類型擬議的原核生物命名法、系統基因組學數據
相關信息
研究中心澳大利亞生態基因組學中心昆士蘭大學
作者(創始人)
  • 菲爾·休根霍爾茨(Phil Hugenholtz)
  • 瑪麗亞·楚沃希納(Maria Chuvochina)
  • 克里斯蒂安·林克(Christian Rinke)
主要參考文獻(引用)PMID 30148503
發布日期2018年
訪問
網站gtdb.ecogenomic.org
下載網址gtdb.ecogenomic.org/downloads
網絡服務網址gtdb.ecogenomic.org/tree
其它信息
許可CC BY-SA 4.0
版本09-RS220 (2024年4月24日)
管理政策混合

基因組分類學資料庫(英語:Genome Taxonomy Database縮寫GTDB)是一個在線資料庫,它遵循基於一組保守的單拷貝蛋白質的系統基因組學方法,保存有關原核生物擬議命名法的信息。除了解決並系群之外,該方法還通過算法重新分配分類等級,並在兩種情況下更新名稱。[1] 2020年添加了古菌信息,[2] 以及基於平均核苷酸同一性英語Bacterial genomeaverage nucleotide identity)的物種分類。[3] 每次更新都包含新的基因組及其分類的自動和手動管理。[4]

一個名為GTDB-Tk的開源工具可用於將草圖基因組分類到GTDB層次結構中。[5] GTDB系統通過GTDB-Tk已用於對人類腸道微生物組和其它宏基因組來源中尚未命名的細菌進行分類。[6][7]

GTDB於2019年被納入《伯吉氏古菌和細菌系統學手冊》,作為其系統基因組學資源。[8]

方法論

[編輯]

用於構建系統發育的基因組來自美國國家生物技術信息中心參考序列英語RefSeq〔RefSeq〕和基因銀行〔Genbank〕),GTDB發布版本已索引到RefSeq版本,從版本76開始。重要的是,該數據集越來越多地包含從宏基因組和單細胞獲得的未培養微生物的草圖基因組,以確保微生物世界的基因組代表性得到提升。所有基因組在納入GTDB之前均使用CheckM進行獨立質量控制。[9]

基因組首先經過基因調用(識別)英語GeneCalling(gene calling)來提取基因。分類學基於以下樹狀圖:在WAG模型下,使用FastTree從120個單拷貝標記蛋白的串聯集合推斷出細菌的分類樹;在PMSF模型下,使用IQ-TREE從53個(自RS207以來;之前為122個)標記蛋白的串聯集合推斷出古菌的分類樹。此外,還使用了其他標記集(包括串聯核糖體蛋白和核糖體 RNA 基因)來交叉驗證樹狀圖的拓撲結構。[9] 《相對進化分歧》(relative evolutionary divergence,RED)指標決定了所使用的分類等級,它是由PhyloRank程序從兩個主要樹中得出的。[1]

物種劃分使用平均核苷酸同一性和比對分數,兩者均由「skani」計算。對於先前版本中存在的物種,GTDB會比較兩個基因組的質量和位置,並可能決定切換到新的《物種代表》(species representative)基因組。[9]

分類法來自以下來源:

GTDB人員通過對照PhyloRank(系統等級)和樹枝的結果來整理來自上述來源的分類法。

  • 分類單元名稱對應的樹節點的RED可能與其等級不匹配。該名稱可以移至其他節點,或(通過更改拉丁後綴)移至其他等級。[1]
    • 如果分歧過大,可能會在物種或屬的層面上進行分裂。這樣做會產生新的分類單元。[3]
  • 該分類單元可能最終是多系群的。管理員首先將分類單元限定在包含其模式材料的演化支內。然後為每個其他演化支創建一個新的分類單元。[1]

對於每個新的分類單元,管理員都會嘗試在文獻中為其尋找一個建議名稱。如果沒有建議名稱,則會在原名稱後添加一個後綴,賦予該分類單元一個占位符名稱,例如Lactobacillus gasseri_A(加塞爾氏乳桿菌英語Lactobacillus gasseri_A)。「Z」之後是「AA」。[1]

資料庫的內容

[編輯]

每個版本包含:[10]

  • 分類表包含所有基因組組合在門到種分類中的分配情況。(每個域一個。)
  • 包含每個基因組組裝元數據的文件,包括來自

NCBI的原始分類、原始菌株標識符、GTDB分類、質量評估以及重要基因(tRNArRNA)的存在情況。(每個領域一個。)

  • 物種樹Newick文件包含物種代表性基因組(每個物種1個),構建方式如上一節所述。(每個域1個。)
  • 對於物種代表性基因組:
    • 從這些基因組中鑑定出的標記基因的比對
    • 包含每個物種的一個16S rRNA序列的文件
    • 包含這些基因組中所有預測基因的胺基酸和核苷酸版本的tarball
    • 包含所有這些基因組完整內容的tarball
  • 對於所有通過質量檢查的基因組:
    • 從這些基因組中鑑定出的標記基因的比對
    • 包含從這些基因組中識別出的所有16S rRNA序列的文件
  • 輔助文件;請參閱完整的FILE_DESCRIPTIONS.txt。

網頁界面會顯示一個基於分類法(而非整個Newick文件)的樹狀結構,直至基因組組裝層級。每個基因組組裝都有一個頁面,詳細說明其元數據以及在每次GTDB版本中其分類的歷史記錄。此外,它還具備搜索功能。

對公認分類法的影響

[編輯]

GTDB「現已成為原核生物分類學的重要資源」。其物種樹及其方法論要素均被分類學家用來改進《原核生物法規》(Prokaryotic Code)下現行公認的分類法。例如,分類學家可以在自己的系統發育樹之上引用GTDB樹,以進一步支持其分類學提案。[11]

甚至還有更雄心勃勃的提議,要將資料庫的大部分內容導入公認的分類法。2022年,《國際系統與進化微生物學雜誌》(IJSEM)上由第三方作者撰寫的一篇文章提出,應該根據毫無意義的拉丁音節為超過6.5萬個GTDB分類單元命名,[12]儘管這些名字都沒有進入LPSN。 GTDB團隊在2023年發表的一篇文章中提出將223個高階分類單元導入《原核生物法規》系統,將 49 個高階分類單元導入《序列法規》(SeqCode)系統。[13] 《原核生物法規》中公布的許多名稱已經得到驗證。[14] (《序列法規》 要求註冊名稱才能有效發布,這也已經完成。)

參閱

[編輯]

參考文獻

[編輯]
  1. ^ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Parks, DH; Chuvochina, M; Waite, DW; Rinke, C; Skarshewski, A; Chaumeil, PA; Hugenholtz, P. A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. (PDF). Nature Biotechnology. November 2018, 36 (10): 996–1004. PMID 30148503. S2CID 52093100. bioRxiv 10.1101/256800可免費查閱. doi:10.1038/nbt.4229. 
  2. ^ Rinke, Christian; Chuvochina, Maria; Mussig, Aaron J.; Chaumeil, Pierre-Alain; Davín, Adrián A.; Waite, David W.; Whitman, William B.; Parks, Donovan H.; Hugenholtz, Philip. A standardized archaeal taxonomy for the Genome Taxonomy Database (PDF). Nature Microbiology. 21 June 2021, 6 (7): 946–959. ISSN 2058-5276. PMID 34155373. S2CID 235595884. doi:10.1038/s41564-021-00918-8 (英語). 
  3. ^ 3.0 3.1 Parks, DH; Chuvochina, M; Chaumeil, PA; Rinke, C; Mussig, AJ; Hugenholtz, P. A complete domain-to-species taxonomy for Bacteria and Archaea.. Nature Biotechnology. September 2020, 38 (9): 1079–1086. PMID 32341564. S2CID 216560589. bioRxiv 10.1101/771964可免費查閱. doi:10.1038/s41587-020-0501-8. 
  4. ^ For information on each update, see relevant change logs. For notable, paper-worthy changes, see "Cite GTDB" section on the About page.
  5. ^ Chaumeil, PA; Mussig, AJ; Hugenholtz, P; Parks, DH. GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database.. Bioinformatics. 15 November 2019, 36 (6): 1925–1927. PMC 7703759可免費查閱. PMID 31730192. doi:10.1093/bioinformatics/btz848可免費查閱. 
  6. ^ Almeida, Alexandre; Nayfach, Stephen; Boland, Miguel; Strozzi, Francesco; Beracochea, Martin; Shi, Zhou Jason; Pollard, Katherine S.; Sakharova, Ekaterina; Parks, Donovan H.; Hugenholtz, Philip; Segata, Nicola; Kyrpides, Nikos C.; Finn, Robert D. A unified catalog of 204,938 reference genomes from the human gut microbiome. Nature Biotechnology. 20 July 2020, 39 (1): 105–114. PMC 7801254可免費查閱. PMID 32690973. doi:10.1038/s41587-020-0603-3可免費查閱. 
  7. ^ Nayfach, Stephen; et al. A genomic catalog of Earth's microbiomes. Nature Biotechnology. 9 November 2020, 39 (4): 499–509. PMC 8041624可免費查閱. PMID 33169036. doi:10.1038/s41587-020-0718-6可免費查閱. 
  8. ^ Incorporation of Phylogenomics into BMSAB. Bergey's Manual Trust. 
  9. ^ 9.0 9.1 9.2 METHODS.txt (GTDB release 220). data.gtdb.ecogenomic.org. 2024. 
  10. ^ 220.0/FILE_DESCRIPTIONS.txt. 
  11. ^ Gupta, Radhey S.; Patel, Sudip; Saini, Navneet; Chen, Shu. Robust demarcation of 17 distinct Bacillus species clades, proposed as novel Bacillaceae genera, by phylogenomics and comparative genomic analyses: description of Robertmurraya kyonggiensis sp. nov. and proposal for an emended genus Bacillus limiting it only to the members of the Subtilis and Cereus clades of species. International Journal of Systematic and Evolutionary Microbiology. 1 November 2020, 70 (11): 5753–5798. PMID 33112222. doi:10.1099/ijsem.0.004475. 
  12. ^ Pallen, MJ; Rodriguez-R, LM; Alikhan, NF. Naming the unnamed: over 65,000 Candidatus names for unnamed Archaea and Bacteria in the Genome Taxonomy Database. (PDF). International Journal of Systematic and Evolutionary Microbiology. September 2022, 72 (9). PMID 36125864. doi:10.1099/ijsem.0.005482可免費查閱. 
  13. ^ Chuvochina, M; Mussig, AJ; Chaumeil, PA; Skarshewski, A; Rinke, C; Parks, DH; Hugenholtz, P. Proposal of names for 329 higher rank taxa defined in the Genome Taxonomy Database under two prokaryotic codes.. FEMS Microbiology Letters. 17 January 2023, 370. PMC 10408702可免費查閱. PMID 37480240. doi:10.1093/femsle/fnad071.  已忽略未知參數|article-number= (幫助)
  14. ^ Oren, Aharon; Göker, Markus. Validation List no. 215. Valid publication of new names and new combinations effectively published outside the IJSEM. International Journal of Systematic and Evolutionary Microbiology. 1 February 2024, 74 (1). PMID 38299482. doi:10.1099/ijsem.0.006173可免費查閱. 

延伸閱讀

[編輯]

外部連結

[編輯]
  • AnnoTree — 使用GTDB(R95或R214)物種樹可視化基因組注釋的第三方工具。