召回率(Recall),精确率(Precision),平均正确率(Average_precision(AP) ),交除并(Intersection-over-Union(IoU))
Accuracy:准确率,预测对的除以总样本数
Precision:准确率/预测正率 (正样本)
Recall :召回率/查对率,预测对占实际是对的
mAP
公式
多标签图像分类(Multi-label Image Classification)任务中图片的标签不止一个,因此评价不能用普通单标签图像分类的标准,即mean accuracy。该任务采用的是和信息检索中类似的方法—mAP(mean Average Precision)。mAP虽然字面意思和mean accuracy看起来差不多,但是计算方法要繁琐得多。
在图像中,尤其是分类问题中,AP是一种评价ranking方式好不好的指标:
举例来说,一个二分类问题,分别5个样本,如果这个分类器性能达到完美的话,ranking结果应该是:
+1,+1,+1,+1,+1,-1,-1,-1,-1,-1
但是分类器预测的label,和实际的score肯定不会这么完美。这个过程为:首先把所有bbox找出,并在上面加上confidence,每一类都根据confidence从大到小排列,接下来计算两个指标:precision和recall。比如分类器认为打分由高到低选择了前四个,实际上这里面只有两个是正样本。此时的recall就是2(能包住的正样本数)/5(总共的正样本数)=0.4,precision是2(你选对了的)/4(总共选的)=0.5
从上面的例子可以看出,其实precision,recall都是选多少个样本k的函数,如果总共有1000个样本,那么就可以像这样计算1000对P-R,并把他们画出来,这就是PR曲线。
这里有一个趋势,recall越高,precision越低。这是很合理的,从公式中可以看出,虽然精确率与召回率没有必然的关系,然而在大规模数据集