机器学习指标(Precision、Recall、mAP、F1 Score等)

最新推荐文章于 2025-06-08 14:53:24 发布

林学森

最新推荐文章于 2025-06-08 14:53:24 发布

阅读量4.9k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：人工智能与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xuesen_lin/article/details/116173653

本文详细介绍了机器学习中的评估指标，包括Precision、Recall、mAP（mean Average Precision）以及F1 Score。Precision是正确预测正例的比例，Recall是真正例占总正例的比例，mAP是多个类别的平均Precision。F1 Score综合考虑了Precision和Recall，是它们的调和平均值。Confusion Matrix展示了分类器的性能细节，ROC曲线和AUC则用于评估二分类模型的性能，AUC越大表示模型性能越好。这些指标在机器学习模型的训练和优化中起到关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下文章摘录自：

《机器学习观止——核心原理与实践》

京东： https://item.jd.com/13166960.html

当当：http://product.dangdang.com/29218274.html

(由于博客系统问题，部分公式、图片和格式有可能存在显示问题，请参阅原书了解详情)

————————————————

版权声明：本文为优快云博主「林学森」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。

原文链接：https://blog.youkuaiyun.com/xuesen_lin/

1.1 Precision、recall和mAP (mean Average Precision)

计算机领域有很多评估识别结果精度的方式，mAP就是其中应用非常广泛的一种。它的计算过程并不复杂，引用Wikipedia上的描述：

“Mean average precision for a set of queries is the mean of the average precision scores for each query.”

对应的公式是：

其中Q是指查询的次数。

Wiki上的释义虽然是针对信息检索提出来的，但同样可以被机器学习领域用于评估预测精度。在mAP公式中，涉及到了AveP(q)的计算过程。而如果要理解后者，首先得先明白3个指标：Accuracy、Recall和Precision。

不论是针对哪种场景，二分类模型的检测结果都有如下4种可能性：

l True Positive (TP)

预测值为1，实际值也为1，检测正确

l False Positive (FP)

预测值为1，但实际值为0，检测错误

l True Negative (TN)

预测值为0，实际值也为0，检测正确

l False Negative (FN)

预测值为0，实际值为1，检测错误

Accuracy和Precision都很好理解，它们指的是：

Accuracy = (TP + TN) / (TP + FP + TN + FN)

Precision = TP / (TP + FP)

但是仅有这两个指标是不够的。举个实际的例子大家就很好理解了：我们知道“导弹攻击信号”有可能是真实的，也可能是模拟出来的。现在假设100次中真正的导弹攻击事件是3次，同时某导弹攻击防御器成功检测出了其中的两次。那么可以得出：

TP=2

TN=97

FP=0

FN=1

所以Accuracy = 99%, 而Precision = 2/2 = 100%。可见光从这两个值来看，这个导弹防御器的表现似乎已经非常不错了。但事实真的如此吗？毋庸置疑导弹攻击是非常致命的，所以即便是只有一次的失误，也是让人无法接受的。

或者我们再换一种思路——如果程序员为了偷懒，写了一个类似下面的导弹攻击检测器：

boolean isRealMissile()

{

return false;//管它是真是假，一律当假的处理。提前下班。。。

}

那么针对上面这一模型的评估结果如何呢？

此时：

TP = 0

TN = 97

FP = 0

FN = 3

因而Accuracy = 97%。也就是说即便什么都不做，系统也可以达到很高的准确率，这显然不是我们希望看到的结果。

这也是引入Recall的原因之一。它的定义如下所示：

Recall = TP / (TP+FN)

而上述两种情况因为Recall值分别为66.6%及0，终于得到了相对公正的评价。

理解了Precision和Recall后，接下来我们就可以进一步分析Average Precision了。对于一个多标签图像分类系统来说，每一个预测分类(例如小猫)都可以得到它们的confidence score，以及对应的Ground Truth Label。范例如下：

Index	Confidence Score	Ground Truth Label
5	0.98	1
4	0.95	1
2	0.89	0
1	0.82	1
3	0.78	1

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。