【聚类算法解析系列05】聚类效果评估——如何量化“好”的聚类?
引言:评估指标的产业革命
当腾讯健康用聚类算法分割CT影像病灶时,当Visa用异常检测拦截信用卡欺诈时,评估指标就是AI系统的"质检仪"。本文不仅解析指标计算,更将揭示:
- 沃尔玛如何通过轮廓系数优化2000个商品簇的货架转化率
- 美敦力医疗怎样用互信息量评估心脏起搏器信号分型的临床一致性
- 特斯拉如何利用DBI指数压缩自动驾驶视觉特征维度
通过5个工业级案例、12个数学公式推导和8种工程实践技巧,构建评估指标的全维认知体系。
1. 评估范式的哲学思辨
1.1 内部评估:数据本质的结构探索
# 生成具有密度差异的复杂数据
from sklearn.datasets import make_blobs
X1, _ = make_blobs(n_samples=500, centers=3, cluster_std=[0.5, 1.5, 0.8])
X2, _ = make_blobs(n_samples=300, centers=[[-2,0], [2,2]], cluster_std=0.3)
X = np.concatenate([X1, X2])
核心挑战:
- 当簇间密度差异>5倍时,传统指标可能失效
- 高维空间(如基因表达数据的5000+维度)的评估失真
数学本质:
评估指标实则是不同范数空间的距离度量博弈:
[
\text{紧凑度} = \frac{1}{K} \sum_{k=1}^K |\mathbf{X}_k - \mathbf{\mu}_k|p
]
[
\text{分离度} = \min{i \neq j} |\mathbf{\mu}_i - \mathbf{\mu}_j|_q
]<