数据不平衡解决方法

YUNK云客

于 2024-02-15 12:29:21 发布

阅读量452

点赞数 4

分类专栏：漏洞检测文章标签： python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45673600/article/details/136114712

版权

漏洞检测专栏收录该内容

9 篇文章

订阅专栏

数据不平衡解决方法

数据不平衡

数据不平衡解决方法

数据样本不平衡：某种样本数量远小于另一种样本数量

解决方法：数据采样方法（随机过/欠采样，SMOTE，OSS），数据增强

随机过/欠采样

a. 随机过采样

通过随机复制样本，从而增多少数类的样本数据，达到数据平衡的目的。

但是容易造成过拟合。

b.随机欠采样

随机去除多数类的一些样本数据，从而减少多数类的样本数据，以达到数据平衡的目的

但是容易造成数据缺失，导致欠拟合。

SMOTE

SMOTE(合成少数类样本)：在随机过采样的基础上，增加了k近邻的思想

详细见：SMOTE方法

OSS

OSS(One Side Selection)方法主要思想：是一种基于下采样的方法，旨在解决分类问题中的类别不平衡。在不平衡数据集中，通常一个或多个类别的样本数量远远超过其他类别的样本数量，这可能导致机器学习模型在训练和预测时出现偏差。OSS 通过移除多数类别中的噪音样本和边界样本来平衡数据集，从而提高模型的性能。

详细见：OSS方法

数据增强

数据增强是一种通过对现有数据进行变换或添加新数据来扩充数据集的技术。它在深度学习和机器学习任务中被广泛应用，特别是在数据量不足或不平衡的情况下，可以帮助提高模型的性能和泛化能力。

详细见：数据增强

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。