高级聚类方法与概率分布学习指南
1. 高级聚类方法
高级聚类方法包含多种不同的聚类技术,其中层次聚类是一种重要的无监督学习聚类方法。与 k - means 聚类不同,层次聚类可以使用任何类型的距离度量,并且能够找到复杂形状的聚类,而 k - means 通常只能找到近似球形的聚类。
1.1 层次聚类的相似性度量类型
凝聚式层次聚类是一种自下而上的层次聚类方法,它基于相似性度量逐个合并最相似的聚类。相似性度量主要有以下几种类型:
- 单链接(Single link) :测量两个聚类中最相似的两个点之间的距离或相似性。
- 全链接(Complete link) :测量一个聚类中两个最远点之间的距离或相似性。
- 组平均(Group average) :测量一个聚类的所有成员与另一个聚类的任何成员之间的平均距离。
- 质心相似性(Centroid similarity) :将两个聚类之间的相似性定义为两个聚类质心之间的相似性。
1.2 凝聚式层次聚类的步骤
进行凝聚式层次聚类的算法步骤如下:
1. 将每个点初始化为一个单独的聚类。
2. 计算每对聚类之间的相似性度量,相似性度量可以是上述四种度量中的任何一种。
3. 根据步骤 2 中选择的相似性度量合并两个最相似的聚类。
4. 重复步骤 2,直到只剩下一个聚类。
这个过程会生成一个称为树状图(dendrogram)的图形,它记录了每一步形成的
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



