分类器的评估与选择

本文介绍了混淆矩阵的概念及其在二元分类问题中的应用,并详细解释了如何通过准确率、灵敏度和特异度等指标来评估分类器的性能。此外,还探讨了类不平衡问题及其解决方法。

混淆矩阵:分析分类器的预测能力。以二元分类为例 

实际\预测y=1(阳)y=0(阴)合计
y=1TPFNP
y=0FPTNN

其中:

TP:“真阳性”的个数,预测“阳性为阳性”,正确。

TN:“真阴性”的个数,预测“阴性为阴性”,正确。

FP:“真阳性”的个数,预测“阴性为阳性”,错误。

FN:“真阳性”的个数,预测“阳性为阴性”,错误。

常用的评估分类器性能的指标。

  • 准确率=TR=预测正确的个数/预测的个体总数=(TP+TN)/(P+N)                                        
    • 准确率反映分类器整体的预测能力
  • 灵敏度=真阳性率TPR=正确预测为阳的个数/实际为阳的总个数=TP/P
    • 灵敏度反映分类器整体正确预测“阳性”的能力
  • 特异度=真阴性率TNR=正确预测为阴的个数/实际为阴的总个数=TN/N
    • 特异度反映分类器整体正确预测“阴性”的能力
我们往往关注y=1(阳)的类,这就要求我们的分类器准确率高,灵敏度也要高。
对于同一个分类器,准确率和灵敏度可能有两种截然不同的评价,准确率很高,灵敏度却很低——“类不平衡问题”,y=1很少,y=0很多。
处理类失衡数据集的技术:过抽样、欠抽样和阈值移动。
  • 过抽样:对y=1的元组重复抽样增加个数。
  • 欠抽样:随机删除含y=0的元组减少个数。
  • 阈值移动:移动阈值来降低假阴性出现的机会。
全面的评价工具:ROC曲线,假阳性率FPR为横坐标,真阳性率TPR为纵坐标。曲线下的面积大小度量了分类器正确预测的效果,值越接近1,分类器效果越好。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值