一、聚类如何评估
聚类效果的评估可以通过多种指标来进行,这些指标通常分为内部评估指标和外部评估指标。聚类评估指标的选择依赖于具体的数据和业务需求。例如,如果数据的类别标签未知,则应使用内部评估指标;如果类别标签已知,则可以使用外部评估指标。在实际应用中,可以同时计算多个指标来评估聚类效果。
二、常见聚类评估指标
1、内部评估指标
内部评估指标大都通过比较类间差异和类内差异来判断聚类效果的好坏,只是不同指标的计算方式不一样。
(1)轮廓系数
轮廓系数(Silhouette Coefficient)结合了聚类的凝聚度和分离度两个因素,取值范围是[-1, 1],值越大表示聚类效果越好。对于给定的样本点i,轮廓系数的计算涉及到两个部分:
(a)凝聚度(Cohesion):计算样本点i与其所在簇中其他点的平均距离,记为a(i)。a(i)越小,表示样本点与其簇内的其他点越紧密。
(b)分离度(Separation):计算样本点i与最近的其他簇中所有点的平均距离,这里的“最近的其他簇”是通过比较样本i到除其所在簇之外的所有其他簇中样本的平均距离的最小值得到的,记为b(i)。b(i)越大,表示样本点与其最近的其他簇分离得越好。
由上,样本点i的轮廓系数s(i)计算公式为:
其中,当a(i)<b(i)时,s(i)接近1,表示聚类效果好;当a(i)=b(i)时,s(i)为0,表示聚类效果一般;当a(i)>b(i)时,s(i)接近-1,表示聚类效果差。所有样本点的轮廓系数的平均值即为聚类结果的总体轮廓系数,显然,当数据量大的时候,轮廓系数的计算非常耗时。
(2)Calinski-Harabasz 指数(CH)
&n

最低0.47元/天 解锁文章
1405

被折叠的 条评论
为什么被折叠?



