机器学习中的聚类评估与异常检测
1. 聚类结果评估
在机器学习中,聚类操作的结果有时难以理解。评估有监督学习算法相对直接,因为我们可以获取真实标签,只需统计算法正确和错误分配标签的样本数量。但在无监督学习中,通常难以获取标签,不过如果有标签,评估会变得容易很多。
已知真实标签时的评估指标
- 同质性(Homogeneity) :每个聚类仅包含单一类别的成员的程度。
- 完整性(Completeness) :某个类别的所有成员都被分配到同一个聚类的程度。
这两个指标的调和平均值被称为V - 度量(V - measure),它是一种基于熵的得分,代表聚类操作的准确性,公式为:
[v = \frac{2hc}{h + c}]
其中,(h) 是同质性,(c) 是完整性。
无真实标签时的评估指标
在没有真实标签的情况下,我们无法使用V - 度量,需要依赖训练模型本身的信号。如果分配到同一聚类的样本彼此相似,分配到不同聚类的样本完全不同,我们就认为聚类操作是成功的。有两种常用的衡量方法:
- 轮廓系数(Silhouette coefficient) :
- 该得分针对数据集中的每个样本分别计算。使用某种距离度量(如欧几里得距离),对于某个样本 (x),我们找到以下两个平均距离:
- (a):样本 (x) 与同一聚类中所有其他样本的平均距离。
- (b):样本 (x) 与下一个最近聚类中所有其他样本的平均距离。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



