高维数据聚类评估:指标特性与影响因素分析
1. 聚类质量指标与维度关系
在高维数据聚类评估中,许多常用的聚类质量指标会受到数据维度增加的影响。实验在合成高斯数据上进行,结果表明不同的质量指标受维度上升的影响方式各异。维度的增加不仅会影响指标所赋予的平均质量值,还会影响质量估计的稳定性。
例如,对于PBM(Point - Biserial)指标,在评估真实聚类标签时,随着维度增加,其聚类质量指标值的标准差在重叠数据集和分离数据集上呈现不同的变化趋势。以下是相关数据的简单示意表格:
| 数据集类型 | 聚类数 | 维度范围 | std(PBM)大致范围 |
| — | — | — | — |
| 重叠数据集 | 2、3、5、10、20 | (10^0 - 10^3) | 0 - 70 |
| 分离数据集 | 2、3、5、10、20 | (10^0 - 10^3) | 0 - (3\times10^4) |
同样,NGC(G + Complement)指标在重叠和分离数据集上,随着维度增加,其聚类质量指标值的标准差也有不同表现:
| 数据集类型 | 聚类数 | 维度范围 | std(NGC)大致范围 |
| — | — | — | — |
| 重叠数据集 | 2、3、5、10、20 | (10^0 - 10^3) | 0 - 0.035 |
| 分离数据集 | 2、3、5、10、20 | (10^0 - 10^3) | 0 - 0.06 |
2. 简化轮廓系数与邓恩指标的稳定性
简化轮廓系数(Simplified Silhouette)和邓恩指标(Dunn)在应用
超级会员免费看
订阅专栏 解锁全文
1991

被折叠的 条评论
为什么被折叠?



