聚类篇-------度量

聚类度量包括性能度量和距离计算,

性能度量

对数据集D={x1,x2,...,xm},假定通过聚类给出的策划为C={C1,C2,...,Ck},参考模型给出的簇划分为C‘={C'1,C'2,...C'k},相应的λ和λ‘分别表示C和C’对应的簇标记向量,将样本两两配对考虑,

    

由于每一个样本中仅能出现在一个集合中,因此有a+b+c+d=m(m-1)/2

Jaccard 系数(简称JC)

    

FM 系数(简称FMI)

     

Rand 指数(简称RI)

     

上述性能度量的结果均在[0,1]区间,值越大越好。

聚类结果的簇划分C={C1,C2,...Ck},定义

簇C内样本发平均距离:

      
样本间的最远距离:

样本Ci,Cj最近样本间的距离:

簇Ci与Cj中心点间的距离:

DB指数(DBI)

    

Dunn指数(DI)

    

DBI的值越小越好DI的值正好相反,值越大越好

距离计算

非负性:

    

同一性:

    

对称性:

    

直递性:

   

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值