高维数据中的聚类评估
在高维数据的聚类分析中,准确评估聚类质量是一项关键任务。随着数据维度的增加,聚类质量评估指标的性能会受到不同程度的影响。本文将深入探讨高维数据聚类评估的相关内容,包括实验设置、对维度增加的敏感性以及质量评估的稳定性。
1. 实验设置
- 数据生成 :随机选择聚类索引的排列 ${i_1, i_2, \cdots, i_C}$,从固定范围随机选取第一个高斯分布的均值 $\mu_{Ci_0}^l$ 和标准差 $\sigma_{Ci_0}^l$。对于每个 $p \in {2, \cdots, C}$,将聚类 $C_{i_p}$ 随机与一个聚类 $C_{i_q}$($1 \leq q < p$)配对,按照以下规则生成聚类 $q$ 中特征 $l$ 的均值和标准差:
- $\mu_{C_{i_q}}^l = \mu_{C_{i_p}}^l \pm \alpha\sigma_{C_{i_p}}^l$
- $\sigma_{C_{i_q}}^l = \beta(1 + N_{0,1})\sigma_{C_{i_p}}^l$
在实验中,参数值 $\alpha = 0.5$ 和 $\beta = 0.75$。
- 聚类实验 :在每个数据集的两种实验环境下,对真实聚类配置和 K - means 聚类多次运行产生的一系列聚类配置运行评估指标。每个数据集的聚类重复 10 次,使用欧几里得距离。
- 实验框架 :实验基于 Hub Miner(https
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



