机器学习的评价指标-Rand index

本文深入探讨了机器学习中的聚类评价指标,重点关注Rand Index(兰德指数)及其调整版本Adjusted Rand Index(ARI)。 Rand Index衡量了实际类别与聚类结果的一致性,而ARI通过校正随机分布的影响,提供了一个更可靠的比较标准,其值在[-1,1]之间,1表示完美匹配。这两种指标在无监督学习中用于评估聚类算法的效果,特别是在未知真实标签的情况下比较不同聚类模型的性能。" 129484127,12863582,STM32+ESP8266 温湿度上传到OneNet HTTP 实践教程,"['STM32开发', '物联网', '嵌入式硬件', 'ESP8266开发', '数据上传']

下面这篇博客中分类别 介绍了很多机器学习方法的评价指标,比较全面:
http://www.cnblogs.com/zhaokui/p/ml-metric.html

一、聚类结果的评价指标
1、Rand index 或者 Rand measure(兰德指数)
维基百科比较详细:https://en.wikipedia.org/wiki/Rand_index
兰德指数需要给定实际类别信息C,假设K是聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数。评价同一object在两种分类结果中是否被分到同一类别。
在这里插入图片描述
2、ARI(Adjusted Rand index)
ARI 需要用到contingency table:
在这里插入图片描述
调整后的ARI为:
在这里插入图片描述
在这里插入图片描述
调整后的ARI公式的每一部分代表的含义(与上面公式中max(RI) ,E(RI)的对应),可以参照这篇博客:
https://blog.youkuaiyun.com/qtlyx/article/details/52678895
ARI的实现及简单例子参照这篇博客:
https://davetang.org/muse/2017/09/21/adjusted-rand-index/

ARI的优点:

  • 随机均匀的标签分布的ARI值接近0,这点与raw Rand Index和 V-measure指标不同;
  • ARI值的范围是[-1,1],负的结果都是较差的,说明标签是独立分布的,相似分布的ARI结果是正的,1是最佳结果,说明两种标签的分布完全一致;
  • 不用对聚类结果做任何假设,可以用来比较任意聚类算法的聚类结果间的相似性。

ARI的缺点:

  • ARI指标需要事先知道样本的真实标签,这和有监督学习的先决条件是一样的。然而ARI也可以作为一个通用的指标,用来评估不同的聚类模型的性能。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值