P-R曲线
对于二分类问题,可以将训练集的真实类别与机器学习预测的类别划分为真正例(true positive) 、假正例(false positive) 、真反倒(true negative) 、假反例(false negative) 四种情形,令TP 、FP 、TN 、FN 分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数。分类结果的“混淆矩阵”如下:

查准率 P 与查全率 R 的定义如下:

查准率与查全率是一对矛盾的度量,一般来说,查准率高时,查全率较低;查全率高时,查准率偏低,常用查准率 P 作为纵轴,查全率 R 作为横轴的 P-R 曲线来表示两者的变化情况。

在进行机器学习比较时,可以用平衡点来比较,也可以使用P、R 的调和平均数 F1 来综合度量模型的效果,其公式如下:
<

本文介绍了二分类问题中查准率(P)和查全率(R)的概念,以及它们之间的矛盾关系,通过P-R曲线展示这种变化。同时,讨论了ROC曲线,其纵轴为真正例率(TPR),横轴为假正例率(FPR),并提出了AUC作为评价模型性能的指标。
最低0.47元/天 解锁文章
1124

被折叠的 条评论
为什么被折叠?



