13、高维数据聚类评估:指标特性与影响因素分析

高维数据聚类评估:指标特性与影响因素分析

1. 聚类质量指标与维度关系

在高维数据聚类评估中,许多常用的聚类质量指标会受到数据维度增加的影响。实验在合成高斯数据上进行,结果表明不同的质量指标受维度上升的影响方式各异。维度的增加不仅会影响指标所赋予的平均质量值,还会影响质量估计的稳定性。

例如,对于PBM(Point - Biserial)指标,在评估真实聚类标签时,随着维度增加,其聚类质量指标值的标准差在重叠数据集和分离数据集上呈现不同的变化趋势。以下是相关数据的简单示意表格:
| 数据集类型 | 聚类数 | 维度范围 | std(PBM)大致范围 |
| — | — | — | — |
| 重叠数据集 | 2、3、5、10、20 | (10^0 - 10^3) | 0 - 70 |
| 分离数据集 | 2、3、5、10、20 | (10^0 - 10^3) | 0 - (3\times10^4) |

同样,NGC(G + Complement)指标在重叠和分离数据集上,随着维度增加,其聚类质量指标值的标准差也有不同表现:
| 数据集类型 | 聚类数 | 维度范围 | std(NGC)大致范围 |
| — | — | — | — |
| 重叠数据集 | 2、3、5、10、20 | (10^0 - 10^3) | 0 - 0.035 |
| 分离数据集 | 2、3、5、10、20 | (10^0 - 10^3) | 0 - 0.06 |

2. 简化轮廓系数与邓恩指标的稳定性

简化轮廓系数(Simplified Silhouette)和邓恩指标(Dunn)在应用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值