利用无限高斯混合模型对蛋白质序列和结构空间进行聚类
1. 引言
蛋白质序列聚类成家族和超家族是比较基因组学和蛋白质功能预测的常用方法。随着结构基因组学项目的出现,将蛋白质序列与已知结构的序列进行聚类也被提议作为确定结构的目标选择方法。新确定的蛋白质结构需要进行分类,以评估其新颖性,并对未知功能的蛋白质进行功能注释。
大多数蛋白质序列聚类方法从两两相似性搜索开始,并使用两两得分作为序列相似性的度量。以下是一些常见的聚类方法:
| 方法 | 聚类方式 | 缺点 |
| ---- | ---- | ---- |
| GENERAGE | 递归单链接层次聚类 | 依赖得分阈值,确定簇数量主观;结果依赖数据小变化;非概率方法,缺乏不确定性度量 |
| PROTOMAP | 类似 GENERAGE,但使用所有两两得分的均值构建层次聚类 | 依赖得分阈值,确定簇数量主观;结果依赖数据小变化;非概率方法,缺乏不确定性度量 |
| SYSTERS | 使用集合论启发式方法获得不相交的簇 | 依赖得分阈值,确定簇数量主观;结果依赖数据小变化;非概率方法,缺乏不确定性度量 |
| Abascal 和 Valencia 的方法 | 使用图论的 Ncut 算法 | 依赖得分阈值,确定簇数量主观;结果依赖数据小变化;非概率方法,缺乏不确定性度量 |
Krogh 等人提出了一种概率方法,使用隐马尔可夫模型(HMM)将珠蛋白家族的蛋白质序列聚类成亚家族,结果有一定前景,但后续相关工作较少。随着序列和结构数据的增加,自动将序列聚类到假设类别的方法将越来越有用。
聚类方法中一个重要的问题是使用多少个簇。贝叶斯统计可以提供解决方案,一种优
超级会员免费看
订阅专栏 解锁全文
886

被折叠的 条评论
为什么被折叠?



