聚类分析:理论与实践的多维度探索
引言
在数据科学的众多领域中,聚类分析是一项至关重要的技术,它可以将数据集中相似的数据点归为一类,从而帮助我们发现数据的内在结构和规律。本文将深入探讨聚类分析中的各种评估指标,包括内部标准和外部标准,以及图聚类中的模块化概念,同时通过具体的代码示例展示这些指标在实际数据中的应用。
内部标准评估指标
1. 分散度与聚类选择
在聚类分析中,我们选择平方误差和作为分散度的度量。例如,对于某些聚类,如特定的 $C_1$、$C_2$ 等,其平方误差和分别为 $sse(C_1) = 2$,$sse(C_2) = 2$,$sse(C’ 1) = 18$,$sse(C’_2) = 18$。通过计算相关系数 $r {12} = 0.8$ 和 $r’_{12} = 18$,可以帮助我们在不同的聚类方案中做出选择,这里 $κ$ 方案更具优势。
2. Dunn 质量指数
Dunn 质量指数是一类用于评估聚类质量的指标。对于聚类 $κ = {C_1, \ldots, C_k}$,Dunn 指数的计算公式为:
[
\Delta(κ) = \frac{\min_{1\leq i<j\leq k} D(C_i, C_j)}{\max_{1\leq j\leq k} s(C_j)}
]
其中,$s$ 是分散度度量,$D(C_i, C_j)$ 是簇间不相似度,可以是不同簇中两点间的最小距离、最大距离或簇质心之间的距离等。需要注意的是,如果某个簇的分散度值较高,由于分母中的 $\max$ 函数,会对指数值产生负面影响。
超级会员免费看
订阅专栏 解锁全文
1057

被折叠的 条评论
为什么被折叠?



