11、聚类算法性能评估与高效K - 中心点聚类算法解析

聚类算法性能评估与高效K - 中心点聚类算法解析

聚类性能评估

在数据聚类中,评估聚类算法的性能至关重要。以下介绍两种重要的评估指标和一种聚类趋势测量方法。

Fowlkes–Mallows指数

Fowlkes–Mallows指数用于计算聚类算法返回的聚类结果与基准分类之间的相似度。其计算公式如下:
[FM = \sqrt{\frac{TP}{TP + FP} \cdot \frac{TP}{TP + FN}}]
其中,TP、FP、FN分别代表真正例、假正例和假反例。该指数的得分范围从0到1,值越高表示聚类结果与基准分类越相似。当FMI得分接近0.0时,表明两个标签分配基本独立;而接近1的值则表示有显著的一致性;完美的标签分配得分是1.0。与Jaccard指数类似,Fowlkes–Mallows指数不对聚类结构做任何假设,可用于比较不同的聚类算法,如K - 均值算法和谱聚类算法的结果。

聚类趋势测量 - Hopkins统计量

测量聚类趋势是为了确定待聚类数据中存在聚类的程度,可在尝试聚类之前作为初始测试。一种方法是将数据与随机数据进行比较,因为平均而言,随机数据不应有聚类。

Hopkins统计量是一种常用的测量聚类趋势的方法。设X是d维空间中N个数据点的集合,从X中无放回地随机抽取m(m ≪ N)个数据点,记为(x_i),同时生成m个均匀随机分布的数据点集合Y。定义两个距离度量:(u_i)为(y_i \in Y)到其在X中最近邻的距离,(w_i)为(x_i \in X)到其在X中最近邻的距离。Hopkins统计量定义为:
[H = \frac{\sum_{i = 1}^{m} u_i}

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值