#GTDB-Tk 的 classify_wf 工作流程会输出多个文件,这些文件分别存放在几个不同的文件夹内,包括对微生物基因组的比对、多序列对齐、分类和标记基因的分析结果。以下是对每个文件夹和文件的详细解析#
GTDB-Tk-classify_wf输出文件共含3个目录、3个log文件:
目录1-align
这个文件夹主要保存多序列对齐的结果,包括所提供的基因组的对齐以及GTDB数据库中的参考序列的对齐。
1.1 _gtdbtk.ar53.filtered.tsv
这是一个过滤后的Archaea(古菌)基因组标记数据,GTDB-Tk 可能在对齐过程中筛选了一些低质量的基因组或标记基因。
1.2_gtdbtk.ar53.msa.fasta.gz
压缩的多序列对齐文件,包含了与Archaea数据库中参考序列的对齐结果(msa 代表多序列对齐 “multiple sequence alignment”)。
1.3_gtdbtk.ar53.user_msa.fasta.gz
压缩的用户基因组与Archaea数据库中的标记基因的多序列对齐结果。
1.4_gtdbtk.bac120.msa.fasta.gz
压缩的多序列对齐文件,包含了与Bacteria数据库中的120个通用标记基因的对齐结果。
1.5_gtdbtk.bac120.user_msa.fasta.gz
用户基因组与Bacteria(细菌)数据库中120个通用标记基因的多序列对齐文件。
目录2-classify
这个文件夹主要保存多序列对齐的结果,包括所提供的基因组的对齐以及GTDB数据库中的参考序列的对齐。
2.1 _gtdbtk.ar53.classify.tree
用于古菌基因组的分类树,描述了用户基因组在GTDB数据库中古菌部分的系统发育关系。
2.2_gtdbtk.ar53.summary.tsv
一个重要文件,提供了古菌基因组的分类摘要,包括每个基因组的分类学信息,如界(Domain)、门(Phylum)、纲(Class)等。它显示了每个基因组与GTDB参考基因组的最近分类位置。
2.3_gtdbtk.bac120.classify.tree.X.tree(X为数字 1, 3, 4, 5, 6, 8等多个文件)
这些文件是用于细菌基因组的系统发育树,可能是不同子树或者不同部分的细菌系统发育树。每个文件表示一个基于细菌数据库中的特定区域或标记基因的分类树。
2.4_gtdbtk.bac120.summary.tsv
一个重要文件,提供了细菌基因组的分类摘要,包括详细的分类学信息(类似于古菌的 summary.tsv 文件)。
2.5_gtdbtk.bac120.tree.mapping.tsv
映射文件,说明细菌基因组是如何在分类树中进行映射和分类的。
2.6_gtdbtk.backbone.bac120.classify.tree
这是基于GTDB数据库中120个细菌标记基因构建的骨干系统发育树,包含了参考基因组和用户基因组的进化关系。
目录3-identify
该文件夹包含了基因组中标记基因的识别信息,以及识别过程中失败的基因组信息。
3.1 _gtdbtk.ar53.markers_summary.tsv
这是关于古菌基因组标记基因的总结,列出了每个基因组中检测到的标记基因的数量、质量等信息。
3.2_gtdbtk.bac120.markers_summary.tsv
类似于上面的文件,但针对的是细菌基因组,列出了120个细菌标记基因的识别信息。
3.3_gtdbtk.failed_genomes.tsv
一个重要文件,列出了在标记基因识别或分类过程中失败的基因组。查看这个文件可以帮助你了解哪些基因组未能通过GTDB-Tk分析,以及原因可能是什么。
3.4_gtdbtk.translation_table_summary.tsv
这是一个翻译表的总结文件,描述了每个基因组使用的翻译表(translation table),翻译表决定了基因组序列如何被转化为蛋白质序列(例如起始密码子和终止密码子)。
GTDB-Tk链接:https://ecogenomics.github.io/GTDBTk/