1. 数据不平衡是什么
所谓的数据不平衡就是指各个类别在数据集中的数量分布不均衡;在现实任务中不平衡数据十分的常见。如
· 信用卡欺诈数据:99%都是正常的数据, 1%是欺诈数据
· 贷款逾期数据
一般是由于数据产生的原因导致出的不平衡数据,类别少的样本通常是发生的频率低,需要很长的周期进行采集。
在机器学习任务(如分类问题)中,不平衡数据会导致训练的模型预测的结果偏向于样本数量多的类别,这个时候除了要选择合适的评估指标外,想要提升模型的性能,就要对数据和模型做一些预处理。
处理数据不平衡的主要方法:
· 欠采样
· 过采样
· 综合采样
· 模型集成
· 调整类别权重或者样本权重
2. 数据不平衡处理方法
imbalanced-learn库提供了许多不平衡数据处理的办法,本文的例子都以imbalanced-learn库来实现。
https://github.com/scikit-learn-contrib/imbalanced-learn
先来看下数据

2.1 欠采样
欠采样,就是对数量多类别的样本进行抽样,使其数量与数量少的类别的数量相当,以此来达到数量的平衡。

推荐 :020 持续更新,精品小圈子每日都有新内容,干货浓度极高。

本文探讨了数据不平衡问题,特别是在机器学习中的分类任务中。介绍了数据不平衡的原因和影响,并详细阐述了处理方法,包括欠采样、过采样、综合采样、模型集成以及调整类别权重。imbalanced-learn库提供了多种不平衡数据处理工具,例如TomekLinks、SMOTE等。文章强调了选择合适方法的重要性,以避免模型过拟合并提升性能。
最低0.47元/天 解锁文章
407

被折叠的 条评论
为什么被折叠?



