在人工智能领域,分类任务占据了很大的比例,例如物体识别(计算机视觉)、信用卡欺诈(数值型预测)、情感分析(自然语言处理)等等。针对众多的分类需求,模型的评价标准只是简单的准确率(Accuracy)吗? AUC和Macro F1,谁才是真正的分类评价标准呢?
对于业务用户来说,希望技术团队完成的是正确分类,区别无分是分成两类还是多类,是一个级别的分类还是多个级别的分类,然后要求准一点。那么什么是准一点呢?也许用户还没有意识到这个问题的复杂性,或者说没有意识到他们真正关心的是什么。由于多分类问题可以简化为多个二分类问题,我们直接来分析看似简单的二分类问题。
准一点就是准确度(Accuracy),也就是说用户给了我们数据,我们分好类把答卷交给用户,用户判卷子的结果。以二分类举例,75%就是每100个数据,被正确挑出的正类和负类一共有75个。一般情况下这样的评估方式是合理的,但也有特殊的例子,譬如真实的正负类比例是98比2,那么模型只要把所有的数据都判别为正类,准确率就是98%,非常高,但对业务没有任何意义,因为一个负类都挑不出来。
为了更方便描述问题,我们按下表把实际的正负类和判断的正负类分成四种情况,分别是TP、FP、FN、TN,那么准确率Accuracy就是 (TP+TN)/ ALL。要提升准确率,就要降低左下角的FP(也就是误判,把不该判断为正类的误判为了正类)和右上角的FN(也就是漏判,把应该判断为正类的漏判为了负类)。下表也被称作混淆矩阵(Confusion matrix)。

分类任务中,准确率、AUC和Macro F1都是评价标准。AUC关注模型在不同阈值下的表现,更公正合理;而Macro F1适用于多类别平衡。选择评价标准需考虑业务需求,如查全率或精确率的侧重。最终确定阈值时,应结合用户关注点和模型AUC表现。
最低0.47元/天 解锁文章
1872

被折叠的 条评论
为什么被折叠?



