聚类评估指标有哪些?

一、聚类如何评估

        聚类效果的评估可以通过多种指标来进行,这些指标通常分为内部评估指标外部评估指标。聚类评估指标的选择依赖于具体的数据和业务需求。例如,如果数据的类别标签未知,则应使用内部评估指标;如果类别标签已知,则可以使用外部评估指标。在实际应用中,可以同时计算多个指标来评估聚类效果。

二、常见聚类评估指标

1、内部评估指标

        内部评估指标大都通过比较类间差异和类内差异来判断聚类效果的好坏,只是不同指标的计算方式不一样。

(1)轮廓系数

        轮廓系数(Silhouette Coefficient)结合了聚类的凝聚度和分离度两个因素,取值范围是[-1, 1],值越大表示聚类效果越好。对于给定的样本点i,轮廓系数的计算涉及到两个部分:

        (a)凝聚度(Cohesion):计算样本点i与其所在簇中其他点的平均距离,记为a(i)。a(i)越小,表示样本点与其簇内的其他点越紧密。

        (b)分离度(Separation):计算样本点i与最近的其他簇中所有点的平均距离,这里的“最近的其他簇”是通过比较样本i到除其所在簇之外的所有其他簇中样本的平均距离的最小值得到的,记为b(i)。b(i)越大,表示样本点与其最近的其他簇分离得越好。

        由上,样本点i的轮廓系数s(i)计算公式为:

s(i) = \frac{b(i)-a(i)}{max(a(i),b(i))}

        其中,当a(i)<b(i)时,s(i)接近1,表示聚类效果好;当a(i)=b(i)时,s(i)为0,表示聚类效果一般;当a(i)>b(i)时,s(i)接近-1,表示聚类效果差。所有样本点的轮廓系数的平均值即为聚类结果的总体轮廓系数,显然,当数据量大的时候,轮廓系数的计算非常耗时。

(2)Calinski-Harabasz 指数(CH)

  &n

### 聚类模型效果评估的常用指标 #### 1. Davies-Bouldin指数 (DBI) Davies-Bouldin指数是一种常用的外部验证指标,用于衡量聚类的质量。该指数通过计算簇内的分散程度以及不同簇之间的距离来综合评价聚类的效果。其核心思想是:对于每一个簇,找到与其最相似的一个其他簇,并记录两者的相似度;最终取这些最大相似度的平均值作为整个数据集的Davies-Bouldin指数[^1]。 较低的Davies-Bouldin指数表明更好的聚类质量。 #### 2. 轮廓系数 (Silhouette Coefficient) 轮廓系数是一个介于-1到1之间的数值,用来量化样本点相对于所属簇和其他簇的距离关系。具体来说,它由两个部分组成:a(i),即某个样本点与其他同簇样本点的平均距离;b(i),即该样本点与最近邻簇中所有样本点的平均距离。轮廓系数s(i)定义为 `(b(i)-a(i)) / max(a(i), b(i))`。当大部分样本具有较高的正向轮廓系数时,则说明当前聚类结构较为合理[^3]。 #### 3. Calinski-Harabasz指数 (CH Index) Calinski-Harabasz指数也被称为方差比率准则(VRC),它是基于组间离散性和组内紧凑性的比例来进行评分的一种方法。高分意味着更清晰分离出来的类别边界,因此更高的Calinski-Harabasz分数通常代表更好划分的结果[^4]。 #### 4. Dunn指数 Dunn指数考虑的是最小簇间距除以最大的簇直径的比例情况。理想情况下,我们希望看到较大的dunn index值因为这意味着各个群组之间存在明显区别而且内部紧密联系在一起[^5]。 ```python from sklearn import metrics import numpy as np # 假设X是我们原始的数据矩阵, labels 是对应的标签数组 db_index = metrics.davies_bouldin_score(X, labels) # 计算 DB 指数 silhouette_avg = metrics.silhouette_score(X, labels) # 计算 Silhouette 平均得分 ch_score = metrics.calinski_harabasz_score(X, labels) # CH Score 的计算方式 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值