数据不平衡解决方法
数据样本不平衡:某种样本数量远小于另一种样本数量
解决方法:数据采样方法(随机过/欠采样,SMOTE,OSS),数据增强
随机过/欠采样
a. 随机过采样
通过随机复制样本,从而增多少数类的样本数据,达到数据平衡的目的。
但是容易造成过拟合。
b.随机欠采样
随机去除多数类的一些样本数据,从而减少多数类的样本数据,以达到数据平衡的目的
但是容易造成数据缺失,导致欠拟合。
SMOTE
SMOTE(合成少数类样本):在随机过采样的基础上,增加了k近邻的思想
详细见:SMOTE方法
OSS
OSS(One Side Selection)方法主要思想:是一种基于下采样的方法,旨在解决分类问题中的类别不平衡。在不平衡数据集中,通常一个或多个类别的样本数量远远超过其他类别的样本数量,这可能导致机器学习模型在训练和预测时出现偏差。OSS 通过移除多数类别中的噪音样本和边界样本来平衡数据集,从而提高模型的性能。
详细见:OSS方法
数据增强
数据增强是一种通过对现有数据进行变换或添加新数据来扩充数据集的技术。它在深度学习和机器学习任务中被广泛应用,特别是在数据量不足或不平衡的情况下,可以帮助提高模型的性能和泛化能力。
详细见:数据增强