类别不均衡处理办法总结

最新推荐文章于 2025-01-13 21:34:25 发布

原创最新推荐文章于 2025-01-13 21:34:25 发布 · 置顶 · 5.3k 阅读

47 ·

CC 4.0 BY-SA版权

文章标签：

#数据不均衡 #样本不均衡 #过采样欠采样

模型提升技巧知识与文章专栏收录该内容

5 篇文章

订阅专栏

深度学习中数据量不平衡是常见问题，本文总结了解决样本类别不均衡的方法，包括过采样欠采样、创造数据、合并新的少数类别、调整类权重、更改损失函数（Focal Loss）、更改评价标准以及提高判别阈值等，并给出部分方法的代码链接和适用场景。

部署运行你感兴趣的模型镜像

　　　对于深度学习而言，数据量不平衡是很常见的问题，如：工厂的产品缺陷率一般在 0.1% 左右，患者病例比较少等。最近遇到个项目，样本类别极其不均衡，多的类别有上万张，少的仅有几百张，为了有好的训练效果，尝试了很多方法，在这篇博客总结下我使用的，还有见到的一些方法。

一、过采样欠采样

　　　既然不平衡，那就想办法让他平衡，增加数据和减少数据。一般的方法是过采样和欠采样。

　　过采样的意思就是：把少数类别数量重复利用，相当于某个类别１００张，复制后，数据量就成为２００张。不过这种方法不推荐，可能会造成过拟合。最好是通过数据增强的方式来对少数类别的数量进行数据扩充。数据增强方式与代码：链接

　　欠采样的意思就是：数据量大的类别数据并不是全部都使用，比如一万张图像，使用三四千张来作为训练数据。根据自己的数据量进行调整，尽量平衡。我就是使用了这个方法。

二、创造数据

　　既然有一些类别数量很少，就想办法创造数据、生成数据。能尽量想办法找数据就找，一些公共数据集，或者去谷歌爬虫一些图片（谷歌爬虫方法链接）

　　方法１：根据自己数量特征，想办法生成不同的背景。即保留特征，换背景（这种生成数据方法一般适用于类别数据特征比较明显，易分割）

　　方法２：SMOTE 及其衍生技术。这是个算法，我没用过，不过看到很多地方都提到这个算法，网上有实线，倒是可以试一试。

三、合并新的少数类别

意思是根据自己的项目，将一些数据量少的类别进行一定的合并，比如，自行车、摩托车，统称为非机动车类别。根据自己需求来更改。

四、调整类权重

如果类别不均衡很严重，神经网络会倾向与数据量大的类别进行预测，这显然不是我们想要的效果，所以需要对不同类别设置不同的重要程度，少类数据量少，我们更加应该关注。故需要对数据量少的类别加大权重

方法１：更改交叉商损失

交叉熵公式如下

在tensorflow中的函数是：tf.nn.softmax_cross_entropy_with_logits(logits=prediction,labels=y)

我们需要对类别设置一定的权重，设置的比例最好是与不同类别数据量比例相反。比如三类的数据量，１００，２００，３００这样我们需要设置的比例为３：２：１．如下面代码所示。这样对数据量少的类别加大了损失权重。这个方法可以使用多类别。

class_weight = tf.constant([3,2,1])
y_class_weight = y*class_weight
loss = -tf.reduce_mean(y_class_weight*tf.log(yprediction))

该方法我试过，不过没有很好的效果，当然这个比例是要调参的，没有放之四海皆准的。

方法２：更换交叉商函数

官方函数：tf.nn.weighted_cross_entropy_with_logits

之前普通的交叉熵函数定义为：

[公式]

就是在交叉熵的公式里面对应的少数类乘上一个系数：
该函数实现的是：如果pos_weights > 1减小了错误负样本的权重，因此提高了recall。相反如果pos_weights < 1减小了错误正样本的权重，因此提高了precision。pos_weight是作为损失表达式中正目标项的乘法系数引入的。

[公式]