层次聚类（hierarchical clustering）和聚类模型评估（calinski-harabaz index）

最新推荐文章于 2023-06-03 09:06:34 发布

原创

最新推荐文章于 2023-06-03 09:06:34 发布 · 6.9k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#聚类 #机器学习

本文介绍了层次聚类的两种策略——Agglomerative和Divisive，以及计算相似度的方法如SLink、CLink、ALink。同时，讨论了聚类模型评估中的Calinski-Harabaz Index，它是通过组间离散与组内离散的比率来判断聚类效果，分值越高表明聚类效果越好。

层次聚类（Hierarcical Clustering）

层次聚类是聚类算法中的一种，它通过计算不同类别数据点之间的相似度，来创建一颗有层次的嵌套聚类树，层次聚类的策略有两种：
1.Agglomerative： 把每个点看成一个簇，合并这些相似的簇形成聚类；
2.Divisive： 把所有的点看成一个簇，分解这些点到各自簇内形成聚类；

Merge和Split使用的是贪婪的方式来进行计算的，所以非常耗时（ $O(n^3)$ ）以及消耗内存（ $O(n^2)$ ），因此有一些高效的方法：SLink，CLink，ALink

衡量点之间的相似度是一项重要的工作，计算两个簇之间相似度的方法：
1.SLink-Single Linkage： 将两个组合数据点中距离最近的两个点之间的距离作为这两个组合数据点的距离，但是这种方式容易受到极端值的影响。
2.CLink-Complete Linkage： 将两个组合数据点中距离最远的两个点之间的距离作为这两个组合数据点的距离，这种方式同样容易受到极端值得影响。
3.ALink-Average Linkage： 计算两个组合数据点中的每个数据点与其他数据点的距离，将所有距离的均值作为两个组合数据点的距离。