机器学习——性能评估方法(1)
对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure).本节主要包含:查准率、查全率、F1、ROC、AUC以及代价敏感错误率曲线。
——周志华老师机器学习西瓜书的一些总结与备忘。
查准率、查全率与F1
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例 (false positive) 、真反倒(true negative)、假反例 (false negative) 四种情形。用TP 、FP 、TN 、FN 表示。
| 真实情况 | 预测结果 | |
|---|---|---|
| 正例 | 反例 | |
| 正例 | TP(真正例) | FN(假反例) |
| 反例 | FP(假正例) | TN(真反例) |
查准率 P与查全率 R 分别定义:
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
R = T P T P + F N R = \frac{TP}{TP+FN} R=TP+FNTP

-
若一个学 习器的 P-R 曲线被另一个学习器的曲线完全包住, 则可断言后者的性能优于前者。
-
如发生交叉,则一般难以断言孰优孰劣,只能在具体的查全与查准率下比较。
-
“平衡点”(Break-Event Point ,BEP)图中斜线就是一个比较模型优劣的度量方法。
-
F1度量(更常用):
F 1 = 2 × P × R P + R = 2 × T P 样 例 总 数 + T P − T N = 2 × T P F P + F N + 2 × T P F1 = \frac{2\times P\times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN}=\frac{2\times TP}{FP+FN+2\times TP} F1=P+R2×P×R=样例总数+TP−TN2×TP=FP+FN+2×TP2×TP
F1 是基于查准率与查全率的调和平均 *(harinonicmean)*定义的:
1 F 1 = 1 2 ( 1 R + 1 P ) \frac{1}{F1}=\frac{1}{2}(\frac{1}{R}+\frac{1}{P}) F11=21(R1+

最低0.47元/天 解锁文章
2396

被折叠的 条评论
为什么被折叠?



