数据聚类中的指标与方法解析
1. 选择合适聚类数的指标
在聚类分析中,选择具有最合适聚类数的分区是一个关键问题。有多种指标可用于此目的,下面将详细介绍几种常见的指标。
1.1 CH 和 DB 指标
CH(Calinski-Harabasz)和 DB(Davies-Bouldin)指标可用于评估不同分区的质量。例如,对集合 A 应用 AGNES 算法,从分区 (m) = { {a1}, …, {am} } 开始,使用特定的相似度度量和 LS 距离函数 D2(A, B) = ∥cA - cB∥2(其中 cA 和 cB 分别是集合 A 和 B 的均值),可以得到不同分区的 CH 和 DB 指标值,如下表所示:
| Index | (2) | (3) | (4) | (5) | (6) | (7) |
| — | — | — | — | — | — | — |
| CH | 17.76 | 33.65 | 30.34 | 26.97 | 21.78 | 18.31 |
| DB | 0.50 | 0.42 | 0.36 | 0.38 | 0.25 | 0.18 |
从这些值可以看出,CH 指标表明 (3) 是具有最可接受聚类数的分区,而 DB 指标则表明 (7) 是最可接受的分区。
1.2 轮廓宽度准则(SWC)
SWC 在聚类分析和应用中非常流行。对于使用距离函数 d 获得的 k - LOPart ⋆ = {π⋆1, …, π⋆k },SWC 的计算步骤如下:
1. 对于每个 ai ∈ π⋆r,计算:
- αir = (1 / |π⋆r|) ∑(b∈π⋆r) d(ai, b)
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



