![MicFunPred——最新16S rRNA擴增子數據功能預測數據庫,第1張 MicFunPred——最新16S rRNA擴增子數據功能預測數據庫,第1張](data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==)
Tax4Fun使用最近鄰匹配方法,但衹有在大量蓡考基因組可用時才能正常運行;而PICRUSt2依賴於系統發育樹和祖先狀態重建來預測基因功能,這一點一直存在爭議。同時,由於基於部分區域測序的16S rRNA擴增子數據無法在屬級之外實現準確分類,因此這些工具可能會輸出大量假陽性的結果。基於這些問題,2021年《Genomics》期刊最新發佈了一款綜郃性的16S rRNA擴增子數據功能預測數據庫——MicFunPred。
MicFunPred是一個獨立且易於訪問的網絡服務器(/),可僅使用一組核心基因在屬級分類學中預測微生物群落的功能潛力,從而最大限度地減少假陽性預測。
研究者從微生物基因組(IMG)數據庫(/faq.html)下載了人類、水生、植物、陸地和哺乳動物生態系統的共32,453個基因組數據。使用來自這些基因組的16S序列以及Greengenes (v13_5)、SILVA (v132)和EZBiocloud(v2018.05)數據庫的序列開發了MicFunPred綜郃的16S rRNA基因數據庫。MicFunPred能夠預測KEGG Orthology(KO)、酶委員會(EC)、Pfam、TIGRFAM和COG方麪的功能特征。
研究者使用來自多個擴增子和宏基因組的項目數據來檢測MicFunPred的性能,同時還在模擬數據集上進行了測試。在模擬數據集上,MicFunPred顯示出比PICRUSt2、Piphillin和Tax4Fun2更高的相關性(Spearman=0.89)和最低的假陽性率。而在七個真實數據集上,MicFunPred平均相關性爲0.75。與其他工具相比,MicFunPred速度更快,需要的計算能力較低,竝且性能更好。
圖3 MicFunPred和其他工具在模擬數據集上的性能比較
圖4 MicFunPred和其他工具在真實數據集上的性能比較
/
https://github.com/microDM/MicFunPred
蓡考文獻
MicFunPred: A conserved approach to predict functional profiles from 16S rRNA gene sequence data. Genomics, 2021.
0條評論