二分类最优阈值确定_分类模型评价标准，AUC还是Macro F1？

最新推荐文章于 2025-07-13 16:58:54 发布

最新推荐文章于 2025-07-13 16:58:54 发布 · 2.5k 阅读

文章标签：

分类任务中，准确率、AUC和Macro F1都是评价标准。AUC关注模型在不同阈值下的表现，更公正合理；而Macro F1适用于多类别平衡。选择评价标准需考虑业务需求，如查全率或精确率的侧重。最终确定阈值时，应结合用户关注点和模型AUC表现。

在人工智能领域，分类任务占据了很大的比例，例如物体识别（计算机视觉）、信用卡欺诈（数值型预测）、情感分析（自然语言处理）等等。针对众多的分类需求，模型的评价标准只是简单的准确率(Accuracy)吗？ AUC和Macro F1，谁才是真正的分类评价标准呢？

对于业务用户来说，希望技术团队完成的是正确分类，区别无分是分成两类还是多类，是一个级别的分类还是多个级别的分类，然后要求准一点。那么什么是准一点呢？也许用户还没有意识到这个问题的复杂性，或者说没有意识到他们真正关心的是什么。由于多分类问题可以简化为多个二分类问题，我们直接来分析看似简单的二分类问题。

准一点就是准确度（Accuracy），也就是说用户给了我们数据，我们分好类把答卷交给用户，用户判卷子的结果。以二分类举例，75%就是每100个数据，被正确挑出的正类和负类一共有75个。一般情况下这样的评估方式是合理的，但也有特殊的例子，譬如真实的正负类比例是98比2，那么模型只要把所有的数据都判别为正类，准确率就是98%，非常高，但对业务没有任何意义，因为一个负类都挑不出来。

为了更方便描述问题，我们按下表把实际的正负类和判断的正负类分成四种情况，分别是TP、FP、FN、TN，那么准确率Accuracy就是（TP+TN）/ ALL。要提升准确率，就要降低左下角的FP（也就是误判，把不该判断为正类的误判为了正类）和右上角的FN（也就是漏判，把应该判断为正类的漏判为了负类）。下表也被称作混淆矩阵（Confusion matrix）。

最低0.47元/天解锁文章