TIO Loss:解决不平衡多分类问题的新方案
1. 引言
近年来,卷积神经网络(CNNs)在计算机视觉领域,如图像分类、分割和目标检测等方面,变得越来越重要。与人工提取特征相比,CNNs在特征学习方面具有显著优势。然而,CNNs也存在一些局限性,其中最具挑战性的问题之一就是训练数据集的不平衡。
在不平衡的数据集中,某些类别的训练样本数量明显多于其他类别,这会打破不同类别训练频率的平衡。以往的研究表明,当训练集存在类别不平衡现象时,CNNs的性能往往会不可避免地下降。
在现实世界的数据集中,类别不平衡问题是不可避免的。不平衡数据集通常可分为主要类别(训练数据较多的类别)和次要类别(训练数据较少的类别)。类别不平衡问题会使训练网络难以从次要类别中提取特征,自然也更难对这些类别进行分类。这种挑战在多分类任务中尤为关键,因为多分类的不平衡程度更为复杂。
目前,缓解类别不平衡问题的研究主要集中在两种策略上:数据重采样和损失重加权。数据重采样策略可能会丢弃一些有用数据、复制无用数据,还可能引入噪声,并且在面对极端不平衡数据集时效果不佳。损失重加权策略旨在在不改变原始数据集的情况下,为不同类别分配不同的损失,但大多数现有工作基于独热编码和交叉熵损失,只考虑了真实标签的损失,而忽略了非真实标签的损失。
为了解决这些问题,研究人员引入了逆独热学习方法,考虑了非真实标签和非真实预测之间的损失,并提出了可移植的逆独热损失(TIO损失),以减少类别不平衡训练数据在多分类中的影响。TIO损失具有易于移植到现有损失函数的特性。
2. 相关工作
2.1 数据重采样
数据重采样策略主要通过过采样和欠采样
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



