聚类算法:凝聚式聚类、聚类比较与相似性图聚类
1. 凝聚式聚类概述
许多数据源是由潜在的层次结构或分类体系生成的,这往往是进化过程的结果。例如,所有动植物物种、人类语言以及文化/种族群体等都是进化的产物,电影和书籍等产品也在一定程度上遵循这一规律。
凝聚式聚类是一种自下而上的方法,它反复将两个最接近的聚类合并成一个更大的超级聚类,最终形成一个有根树,树的叶子是单个项目,根定义了整个集合。
1.1 基因表达数据的凝聚式聚类示例
以基因表达数据为例,每列代表一个特定基因,每行代表在特定条件下测量每个基因活性的实验结果。通过观察矩阵,可以发现有一些列块的行为相似,在相似条件下开启或关闭。这些块的发现反映在矩阵上方的树中,高度相似的区域对应着小的分支。树的每个节点代表两个聚类的合并,节点的高度与合并的两个聚类之间的距离成正比。
graph TD;
A[基因表达数据矩阵] --> B[聚类树];
B --> C[相似列块];
C --> D[小分支区域];
1.2 凝聚式树的作用
- 聚类和子聚类的组织 :树中的每个内部节点定义一个特定的聚类,由其下方的所有叶节点元素组成。树描述了这些聚类之间的层次结构,从叶子附近最精细/特定的聚类到根附近最一般的聚类。理想情况下,树的节点定义了可命名的概念,这些不同的粒度级别有助于我们发现之前未注意到的结构概念。
- 聚类过程的可视化 :凝聚
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



