浅谈模型evaluation易混淆的概念：精确率 vs 召回率

栗子皮皮布丁

已于 2025-04-05 19:34:09 修改

阅读量681

点赞数 3

分类专栏： AI Journey 文章标签：人工智能机器学习 python 模型算法

于 2025-03-24 15:29:01 首次发布

本文链接：https://blog.youkuaiyun.com/RayLobeCode/article/details/146477554

版权

11 篇文章

订阅专栏

前言

曾在游戏世界挥洒创意，也曾在前端和后端的浪潮间穿梭，如今，而立的我仰望AI的璀璨星空，心潮澎湃，步履不停！愿你我皆乘风破浪，逐梦星辰！

从数学角度来说，精确度（Precision）和召回率（Recall）有明确的公式，它们反映了分类模型的不同性能方面。我们来详细定义并从数学上区分这两个指标。

精确度衡量的是模型预测为正类的样本中，实际正确的比例。也就是，预测为正类的样本中，有多少是真的正类。

公式：

Precision = TP / (TP + FP)

含义：精确度高意味着，预测为正类的样本中，绝大部分确实是正类。

召回率衡量的是实际正类样本中，有多少被模型正确预测为正类。也就是，所有真实的正类样本中，模型能够识别出多少。

公式：

Recall = TP / (TP + FN)

含义：召回率高意味着，模型能尽可能地找出所有的正类样本，即没有漏掉正类样本。

假设我们有一个任务来识别“有问题的回答”（假设问题是判断是否正确回答了问题）。我们手头有一个测试集，包含100个样本，其中50个样本的答案是正确的（正类），另外50个是错误的（负类）。

模型预测的结果是：

根据上述预测结果，我们可以计算精确度和召回率：

精确度：
```
Precision = TP / (TP + FP) = 40 / (40 + 5) = 40 / 45 = 0.8889 ≈ 89%
```
这表示模型预测为正类的样本中，有约89%是正确的。
召回率：
```
Recall = TP / (TP + FN) = 40 / (40 + 10) = 40 / 50 = 0.8 = 80%
```
这表示模型识别出所有正类样本的80%。

精确度和召回率通常是相互平衡的，高精确度可能会导致低召回率，反之亦然。这也是为什么在实际应用中，F1 分数（精确度和召回率的调和平均）常常被用作综合衡量的指标。

F1分数是精确度（Precision）和召回率（Recall）的调和平均，它试图在两者之间找到一个平衡点。F1分数尤其适用于那些精确度和召回率不可兼得的情况，因此它可以综合评估模型在分类任务中的表现。

F1分数通过以下公式计算：

F1 = 2 * (Precision * Recall) / (Precision + Recall)

在某些任务中，单独使用精确度或召回率可能无法全面反映模型的性能，尤其是当这两个指标互相矛盾时。比如：

F1分数的作用就是在精确度和召回率之间寻找一个权衡。它通过调和这两个指标来给出一个综合评估，因此适用于类别不平衡的任务，特别是在假负例或假正例具有较大影响的场景中。

F1分数的取值范围：F1分数的值在0到1之间，1表示完美的分类效果，0表示完全糟糕的分类效果。
- F1 = 1：表示精确度和召回率都完美，模型没有任何错误。
- F1 = 0：表示模型的精确度和召回率至少有一个是0，模型的分类效果很差。
对不平衡类别敏感：在类别不平衡的情况下（例如正类样本远少于负类样本），F1分数比单独使用精确度或召回率更为合适，因为它对类的不平衡问题进行了综合考虑。