1. Precision和Recall
对于二分类问题,可将样例 根据其真实类别与学习器预测类别的组合划分为:
- TP (True Positive): 预测为真,实际为真
- FP (False Positive): 预测为真,实际为假
- TN(True Negative): 预测为假,实际为假
- FN (False Negative):预测为假,实际为真
令 TP、FP、TN、FN分别表示其对应的样例数,则显然有 TP + FP + TN + FN = 样例总数
分类结果的 “混淆矩阵” 如下:
实际为真 T | 实际为假 F | |
---|---|---|
预测为正例 P | TP (预测为1,实际为1) | FP (预测为1,实际为0) |
预测为负例 N | FN (预测为0,实际为1) | TN (预测为0,实际为0) |

( 查 准 率 ) P r e c i s i o n = T P T P + F P ( 预 测 的 好 瓜 中 有 多 少 是 真 的 好 瓜 ) (查准率)Precision = \frac{TP}{TP + FP} \\ \\ \\ {\color{Purple}{(预测的好瓜中有多少是真的好瓜)}} (查准率)Precision=TP+FPTP(预测的好瓜中有多少是真的好瓜)
( 查 全 率 ) R e c a l l = T P T P + F N ( 所 有 真 正 的 好 瓜 中 有 多 少 被 真 的 挑 出 来 了 ) (查全率)Recall = \frac{TP}{TP + FN} \\ \\ {\color{Purple}{(所有真正的好瓜中有多少被真的挑出来了)}} (查全率)Recall=TP+FNTP(所有真正的好瓜中有多少被真的挑出来了)
2. P-R曲线
一般来说,查准率高时,查全率往往偏低,而查全率高时,查准率往往偏低。通常只有在一些简单任务中,才可能使得查全率和查准率都很高。在很多情况,我们可以根据学习器的预测结果,得到对应预测的 confidence scores 得分(有多大的概率是正例),按照得分对样例进行排序,排在前面的是学习器认为”最可能“是正例的样本,排在最后的则是学习器认为“最不可能”是正例的样本。每次选择当前第 i i i 个样例的得分作为阈值 ( 1 < = i < = 样 例 个 数 ) (1<= i <= 样例个数) (1<=i<=样例个数),计算当前预测的前 i i i 为正例的查全率和查准率。然后以查全率为横坐标,查准率为纵坐标作图,就得到了我们的查准率-查全率曲线: P-R曲线
举例说明:以下摘自 多标签图像分类任务的评价方法-mAP
在一个识别图片是否是车,这样一个二分类任务中,我们训练好了一个模型。假设测试样例有20个,用训练好模型测试可以得到如下测试结果: 其中 id (序号),confidence score (置信度、得分) 和 ground truth label (类别标签)

接下来对 confidence score 排序,得到:

然后我们开始计算P-R曲线值,将排序后的样例,从 i = 0 i = 0 i=0 到