9、机器学习中的聚类评估与异常检测

机器学习中的聚类评估与异常检测

1. 聚类结果评估

在机器学习中,聚类操作的结果有时难以理解。评估有监督学习算法相对直接,因为我们可以获取真实标签,只需统计算法正确和错误分配标签的样本数量。但在无监督学习中,通常难以获取标签,不过如果有标签,评估会变得容易很多。

已知真实标签时的评估指标
  • 同质性(Homogeneity) :每个聚类仅包含单一类别的成员的程度。
  • 完整性(Completeness) :某个类别的所有成员都被分配到同一个聚类的程度。
    这两个指标的调和平均值被称为V - 度量(V - measure),它是一种基于熵的得分,代表聚类操作的准确性,公式为:
    [v = \frac{2hc}{h + c}]
    其中,(h) 是同质性,(c) 是完整性。
无真实标签时的评估指标

在没有真实标签的情况下,我们无法使用V - 度量,需要依赖训练模型本身的信号。如果分配到同一聚类的样本彼此相似,分配到不同聚类的样本完全不同,我们就认为聚类操作是成功的。有两种常用的衡量方法:
- 轮廓系数(Silhouette coefficient)
- 该得分针对数据集中的每个样本分别计算。使用某种距离度量(如欧几里得距离),对于某个样本 (x),我们找到以下两个平均距离:
- (a):样本 (x) 与同一聚类中所有其他样本的平均距离。
- (b):样本 (x) 与下一个最近聚类中所有其他样本的平均距离。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值