不平衡分类的详细框架
1. 不平衡分类的整体流程
在处理不平衡分类问题时,可采用以下四个步骤的系统框架:
1. 选择指标
2. 快速检查算法
3. 快速检查不平衡算法
4. 超参数调优
这个框架为解决不平衡分类问题提供了一个高层次的系统方法。不过,每一步都需要一个类似的低层次系统框架,因为有许多不平衡算法以及标准机器学习算法可供选择。
2. 选择指标
选择指标可能是项目中最重要的步骤。指标是评估和比较所有模型的衡量标准,选错指标可能导致选择错误的算法。指标必须捕捉对项目或项目相关方最重要的模型或其预测的细节。
首先要决定是预测概率还是明确的类别标签。对于二元不平衡分类任务,多数类是正常的,称为负类;少数类是异常的,称为正类。概率能捕捉预测的不确定性,而明确的类别标签可直接使用。
2.1 预测概率
- 直接使用概率 :若概率要直接使用,Brier分数和Brier技能分数是不错的指标。
- 用户自定义阈值映射 :若预测概率并让用户通过自定义阈值将其映射到明确的类别标签,可选择能总结模型在所有可能阈值范围内性能的指标。
- 正类最重要 :使用精确率 - 召回率曲线及其下面积(PR AUC),可在所有阈值上优化精确率和召回率。
- 两类同等重要 :使用ROC曲线及其下面积(ROC AUC),可最大化真正率并最小化假正率。
超级会员免费看
订阅专栏 解锁全文
3225

被折叠的 条评论
为什么被折叠?



