基于亲和传播的表达微阵列数据双向聚类与贝叶斯混合模型在宏基因组学中的应用
1. 亲和传播在表达微阵列数据双向聚类中的应用
在使用亲和传播(Affinity Propagation,AP)对表达微阵列数据进行双向聚类的过程中,算法运行时存在一些特点。在某次运行算法的最后条件下,几乎所有的双向聚类都已获得,只是有一个双向聚类被分成了两个。这表明元素被正确地分组在一起,算法不会将不应该在一起的表达组合在一起,但存在过分割的问题。这个问题可能可以通过更谨慎地选择 AP 聚类模块中的偏好来解决。
2. 宏基因组学聚类的相关背景
宏基因组学是对自然环境中微生物群落基因组内容的研究,绕过了对单个物种进行分离和实验室培养的需求。它在发现和研究大多数难以通过传统方法培养和测序的物种方面具有巨大潜力。与单基因组测序不同,宏基因组的组装难以处理,在很大程度上仍是一个未解之谜。在宏基因组学中,一个关键步骤是将属于同一物种的读数进行分箱,即需要将读数与其来源生物关联起来。聚类方法旨在识别样本中存在的物种,根据物种来源对序列进行分类,并量化每个物种的丰度。聚类方法的有效性取决于数据集中读数的数量、读数长度以及微生物群落中源基因组的相对丰度。
3. 现有宏基因组聚类方法
现有宏基因组聚类方法主要分为基于相似性和基于组成的方法,具体如下:
| 方法类型 | 特点 | 局限性 |
| ---- | ---- | ---- |
| 基于相似性的方法 | 将读数与近缘系统发育邻居进行比对,依赖现有数据库中密切相关基因组的可用性 | 由于大多数现有数据库在真实多样性的表示上存在高度偏差,这些方法无法为来自新物种的读数找到同源物 |
超级会员免费看
订阅专栏 解锁全文
3054

被折叠的 条评论
为什么被折叠?



