机器学习简明概述
1. 评估指标
在机器学习中,评估模型性能是非常重要的,其中轮廓系数(Silhouette Coefficient)和兰德指数(Rand Index,RI)是常用的评估指标。
轮廓系数衡量了一个样本与其所在簇的紧密程度以及与其他簇的分离程度。当轮廓系数 $s_i$ 为正值时是理想的,$s_i = 1$ 表示样本 $a_{ei}$ 的平均距离为 0。
兰德指数是一种外部评估指标,用于比较预测的聚类结果和真实的聚类结果(由专家手动分配),类似于监督算法中的准确率指标。计算兰德指数的步骤如下:
1. 设 $X$ 为数据集,$C_p$ 为聚类算法构建的聚类(预测的聚类集合),$C_r$ 为真实的聚类集合。
2. $TP$ 是在 $C_p$ 和 $C_r$ 中属于同一簇的数据点数量。
3. $TN$ 是在 $C_p$ 和 $C_r$ 中属于不同簇的数据点数量。
4. $FP$ 是在 $C_p$ 中属于一个簇,但在 $C_r$ 中属于不同簇的数据点数量。
5. $FN$ 是在 $C_p$ 中属于不同簇,但在 $C_r$ 中属于同一簇的数据点数量。
6. 兰德指数的计算公式为:$RI = \frac{TP + TN}{TP + TN + FP + FN}$。
| 指标 | 含义 |
|---|---|
| $TP$ | 在预测和真实聚类中都属于同一簇的数据点数量 |
| $TN$ < |
超级会员免费看
订阅专栏 解锁全文
941

被折叠的 条评论
为什么被折叠?



