聚类算法:凝聚式聚类、聚类比较与谱聚类详解
1. 凝聚式聚类(Agglomerative Clustering)
很多数据来源是由潜在的层次结构或分类法定义的过程产生的,这往往是进化过程的结果。比如动物和植物物种、人类语言、文化/种族群体等,甚至像电影和书籍这样的产品也有类似的层次结构。凝聚式聚类是一种自下而上的方法,它反复将两个最接近的聚类合并成一个更大的超级聚类,最终形成一棵根树,叶子节点是单个项目,根节点定义了整个集合。
1.1 基因表达数据的凝聚式聚类示例
以基因表达数据为例,每列代表一个特定的基因,每行代表在特定条件下测量每个基因活性的实验结果。就像选举后不同人有不同的精神状态一样,不同的事物会开启或关闭基因,分析基因表达数据可以揭示基因的工作机制。
在图中,我们可以看到一些列块在相似的条件下表现相似,这些块的发现反映在矩阵上方的树中,高度相似的区域对应着小的分支。树的每个节点代表两个聚类的合并,节点的高度与合并的两个聚类之间的距离成正比,边越高,合并这两个聚类的合理性就越值得怀疑。矩阵的列经过重新排列以反映树的结构,这样我们可以在十四维空间中可视化数百个基因。
生物聚类通常与树状图或系统发育树相关联,因为它们是进化过程的结果。这里看到的具有相似基因表达行为的聚类是生物体进化出新功能的结果,这种新功能改变了某些基因对特定条件的反应。
1.2 凝聚式树的用途
凝聚式聚类返回一个基于项目分组的树,切割树中最长的边后,剩下的就是像 k - means 等聚类算法产生的不相交的项目组。但这棵树的作用远不止项目划分:
- 聚类和子聚类的组织 :树
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



