常用聚类以及聚类的度量指标

最新推荐文章于 2024-07-14 08:22:58 发布

孤数不证

最新推荐文章于 2024-07-14 08:22:58 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_43668299/article/details/98480680

本文深入探讨了聚类算法的评估方法，包括外部度量如homogeneity_score、completeness、v_measure_score、adjusted_rand_score及adjusted_mutual_info_score，以及内部度量如Calinski-HarabazIndex和silhouette_score。详细讲解了这些度量如何帮助我们理解聚类结果的有效性和质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

外部度量：
利用条件熵定义的同质性度量：
sklearn.metrics.homogeneity_score:每一个聚出的类仅包含一个类别的程度度量。
sklearn.metrics.completeness:每一个类别被指向相同聚出的类的程度度量。
sklearn.metrics.v_measure_score:上面两者的一种折衷：
v = 2 * (homogeneity * completeness) / (homogeneity + completeness)
可以作为聚类结果的一种度量。
sklearn.metrics.adjusted_rand_score:调整的兰德系数。
ARI取值范围为[-1,1],从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度
sklearn.metrics.adjusted_mutual_info_score:调整的互信息。
利用基于互信息的方法来衡量聚类效果需要实际类别信息，MI与NMI取值范围为[0,1],AMI取值范围为[-1,1]。
在真实的分群label不知道的情况下(内部度量)：
Calinski-Harabaz Index：
在scikit-learn中， Calinski-Harabasz Index对应的方法是metrics.calinski_harabaz_score.
CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标由分离度与紧密度的比值得到。从而，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。
sklearn.metrics.silhouette_score:轮廓系数
silhouette_sample
对于一个样本点(b - a)/max(a, b)
a平均类内距离，b样本点到与其最近的非此类的距离。
silihouette_score返回的是所有样本的该值,取值范围为[-1,1]。
这些度量均是越大越好
sklearn kmeans,聚类算法kmeans:
流程伪代码：创建K个点作为起始质心（通常是随机）