1、样本不均衡定义
样本不均衡是指不同类别的数据量差别较大,利用不均衡样本训练出来的模型泛化能力差且容易发生过拟合
2、样本不均衡处理方法
1、数据层面
①数据样本数量处理
| 上采样 | 下采样 | |
|---|---|---|
| 样本情况 | 数据量不足 | 数据量充足 |
| 数据集变化情况 | 增加 | 减少 |
| 处理手段 | 大量复制少类样本 | 控制量大类的样本数量 |
| 风险 | 过拟合 |
②数据样本合成
数据合成方法是利用已有样本生成更多的样本。
什么是合成数据?
通过计算机程序生成的不基于任何现实现象或时间的数据。
SMOTE
利用小众样本在特征空间的相似性来生成新样本。
2、算法层面
在目标函数中,增加量少类样本被错分的损失值。准确度在类别不均衡的分类任务中不能正常工作
参考:
[1] https://blog.youkuaiyun.com/u013102349/article/details/79309198
本文探讨了样本不均衡问题,即在训练数据中不同类别的样本数量相差悬殊,导致模型泛化能力下降。针对此问题,提出了两种主要处理方法:数据层面的上采样和下采样,以及合成新样本;以及算法层面调整目标函数以重视少数类样本。上采样通过复制少数类样本防止过拟合,下采样则减少多数类样本。SMOTE是一种合成新样本的方法,通过特征空间的相似性生成新数据。此外,还建议在目标函数中增加对少数类样本误分类的惩罚,以优化模型性能。
9万+

被折叠的 条评论
为什么被折叠?



