聚类性能度量指标

最新推荐文章于 2022-10-16 16:12:43 发布

原创最新推荐文章于 2022-10-16 16:12:43 发布 · 2.8k 阅读

4 ·

CC 4.0 BY-SA版权

基础入门同时被 2 个专栏收录

47 篇文章

订阅专栏

机器学习

42 篇文章

订阅专栏

1.外部指标

将聚类结果与某个“参考模型”进行比较称为外部指标。“参考模型”通常是值有专家经验推出的的模型，或者数据本身有标签。

将样本两两配对，然后确定4个值：
a为在参考模型中属于同一个类且在聚类结果中属于同一个簇的样本对的数量。
b为在参考模型中属于同一个类且在聚类结果中不在同一个簇的样本对的数量。
c为在参考模型中不在同一个类且在聚类结果中属于同一个簇的样本对的数量。
d为在参考模型中不在同一个类且在聚类结果中不在同一个簇的样本对的数量。

1.1 Jaccard系数（JC）

$JC=aa+b+cJC=\frac a{a+b+c}$

1.2 FM指数（FMI）

$FMI=aa+b×aa+cFMI=\sqrt{\frac a{a+b}\times\frac a{a+c}}$

1.3Rand指数（RI）

$RI=2(a+d)m(m−1)RI=\frac{2\left(a+d\right)}{m\left(m-1\right)}$
m为样本总数量

2.内部指标

直接考察聚类的结果，不利用任何参考模型称为内部指标

我们先记住4个距离：
avg( C )为簇内样本平均距离
diam( C )为簇内样本最大距离
dmin(Ci,Cj)为簇Ci,Cj之间样本的最小距离
dcen(Ci,Cj)两个簇Ci,Cj样本中心点之间的距离

2.1 DB指数（DBI）

$DBI=1k∑j=1kmaxi≠j(avg(Ci)+avg(Cj)dcen(Ci,Cj))DBI=\frac1k\sum_{j=1}^k max_{i \neq j}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(C_i,C_j)})$
k为聚好类后簇的个数DBI越小越好

2.2Dunn指数（DI）

$DI=min1≤i≤k{mini≠jdmin(Ci,Cj)max1≤l≤kdiam(Cl)}DI=min_{1\leq i \leq k}\{min_{i \neq j} \frac{d_{min}(C_i,C_j)}{max_{1\leq l \leq k}diam(C_l)} \}$
DI越大越好