二分类最优阈值确定_分类模型评价标准,AUC还是Macro F1?

分类任务中,准确率、AUC和Macro F1都是评价标准。AUC关注模型在不同阈值下的表现,更公正合理;而Macro F1适用于多类别平衡。选择评价标准需考虑业务需求,如查全率或精确率的侧重。最终确定阈值时,应结合用户关注点和模型AUC表现。

550885663c2da777ee80ab888e29a815.png

在人工智能领域,分类任务占据了很大的比例,例如物体识别(计算机视觉)、信用卡欺诈(数值型预测)、情感分析(自然语言处理)等等。针对众多的分类需求,模型的评价标准只是简单的准确率(Accuracy)吗? AUC和Macro F1,谁才是真正的分类评价标准呢?

对于业务用户来说,希望技术团队完成的是正确分类,区别无分是分成两类还是多类,是一个级别的分类还是多个级别的分类,然后要求准一点。那么什么是准一点呢?也许用户还没有意识到这个问题的复杂性,或者说没有意识到他们真正关心的是什么。由于多分类问题可以简化为多个二分类问题,我们直接来分析看似简单的二分类问题。

准一点就是准确度(Accuracy),也就是说用户给了我们数据,我们分好类把答卷交给用户,用户判卷子的结果。以二分类举例,75%就是每100个数据,被正确挑出的正类和负类一共有75个。一般情况下这样的评估方式是合理的,但也有特殊的例子,譬如真实的正负类比例是98比2,那么模型只要把所有的数据都判别为正类,准确率就是98%,非常高,但对业务没有任何意义,因为一个负类都挑不出来。

为了更方便描述问题,我们按下表把实际的正负类和判断的正负类分成四种情况,分别是TP、FP、FN、TN,那么准确率Accuracy就是 (TP+TN)/ ALL。要提升准确率,就要降低左下角的FP(也就是误判,把不该判断为正类的误判为了正类)和右上角的FN(也就是漏判,把应该判断为正类的漏判为了负类)。下表也被称作混淆矩阵(Confusion matrix)。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值