Dynamic Curriculum Learning for Imbalanced Data Classification
动态课程学习用于样本不均衡分类
对于数据不平衡,可以用重采样和代价平衡(cost-sensitive),但它们需要先验知识。为了解决这一问题,本文提出DCL框架,用于每个batch中在线自适应调节采样策略和损失学习,其泛化性能和判别能力更强。受CL启发,DCL由两级课程调度组成:1、采样调度器,在每个batch中选择更有意义的样本,不仅将数据分布由不平衡变成平衡,同时也从容易到难;2、损失调度器,控制分类和度量损失之间的重要性。
样本数目少的类别分类器对其分类效果较差。重采样可能出现过拟合现象,降采样会使得有用信息丢失;代价平衡是给错分的样本数目少的类别更大的损失,但难决定给的meaningful 损失。
DCL出发思想是:教体系先学习所有类好的表达,然后是正确分类,很好的平衡class bias acc(正确预测数/总数)和class balance acc(每一类的平均准确率);交叉熵损失(CE)和度量损失结合(ML),但贡献不同。因为训练时让他俩同等地位,则无法充分利用深度CNN的判别能力。CE更多的关注分配标签的分类,而ML则更关注学习特征嵌入去分不同的样本(不需要分配标签,如验证)。
3.1. Scheduler Function Design
设计四种调度函数:凸函数,cos学习速度由慢到快;线性函数,linear常数学习速度;凹函数,exp学习速度有快到慢;混合函数,学习速度由慢到快再到慢。(