不平衡数据-SMOTE综述【SMOTE合成采样系列】
引言在机器学习中,使用常用算法进行分类时,如:逻辑回归、决策树、支持向量机、随机森林等,都假设数据集是平衡的,即:不同类别的数据在数量和质量上都是同等的。然而,真实世界中大多数数据并不满足该要求,如:银行信用系统中,不守信用的客户是少数;又如:疾病诊断系统中,诊断为阳性的也是少数。倘若直接使用不平衡数据集并使用常用算法构建模型进行分类,结果是不理想的。因此,解决不平衡数据带来的分类问题成了机器学习中的热点问题。其常用解决方法大致可以分为三类:(1)特征选择法;(2)数据分布调整;(3)模型训.
原创
2021-08-23 13:43:04 ·
3533 阅读 ·
0 评论