在注释KEGG的时候,一直用到kaas,具体kaas是个什么东东,简单的总结一下吧。
KEGG是由日本人搞的一个代谢图,收录基因和基因组的数据库,数据库可以分为 3大部分,基因数据库,
化学分子物质数据库,以及基于基因和化学分子物质相互关系而建立起来的代谢路径数据库,在KEGG数据库中,有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K标签,KEGG orthology (ko)代表的是某个代谢途径,k代表的是某个酶,c代表的是某个化合物,M代表的是某个模块,后面都会跟着编号。图中的正方形代表酶,圆形代表代谢物,5.4.4.4代表的是EC编号。而KAAS就是基于这么个数据库的一个快速检索的工具。The method is based on sequence similarities,bi-directional best hit information and some heuristics, and has achieved a high degree of accuracy when compared with the manually curated KEGG GENES database.
对于酶来说,40-70%的序列相似性对于功能的预测有90%的准确性(Tian,W)。直系同源基于是来自于相同的祖先的基因分化,保存在不同的物种中的功能基因。在实际操作中,他们能够通过BBH(bi-directional best hit)来推测出来。因此,对在许多物种中的直系同源基因的鉴定是对新测序的基因功能预测的最便捷的途径。而KEGG 数据库就是通过KEGG Orthology (KO)系统来跨物种注释的一种机制。