什么是长尾分布?
长期以来研究人员做图像、文本分类时使用的大多是均衡数据集:MNIST, CIFAR 10, CIFAR 100等,但是现实生活中的数据分布是非常不均衡的。有的类会占绝大多数,有的类别却很少出现。如果对这种分布不加以考虑,会导致尾部类别(tail)的预测结果受到很大影响,会严重的偏向头部类(head),如图所示:
目前对于长尾分布已经有很多工作去优化、考虑,在这里对最近自己看的论文进行总结。
计算机视觉
Class-Balanced Loss Based on Effective Number of Samples cvpr 2019
论文地址这篇文章从有效数字的角度出发,考虑到每一个类别中数目的不一样,在损失函数中显式地去加入类别>相关的参数,使得分类结果得到提高。并且对CIFAR 10和CIFAR 100进行处理,手动地让它成为长尾数据集
Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective CVPR 2020
论文地址
该文章认为由于训练集当中数据不多,无法让模型学习到很好的表征,所以从域适应的角度来考虑,对于目标域t (测试集)以及源域s (训练集) 对于尾类y 的 P t ( x ∣ y ) / P s ( x ∣ y ) P_t(x|y)/P_s(x|y) Pt(x∣y)/Ps(x∣y)并不相等,然而这个条件分布并没有办法直接估计,所以在论文中去学习这个参数,使得结果相比于上一篇有了进一步提升。
BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition CVPR 2020
论文地址
该篇文章提出了一种两分支模型,分别利用uniform sampler 和 reverse sampler进行数据采样之后,利用共享的特征提取器提取特征,最后用累积学习的方法学习分类器,最后得到loss。
Equalization Loss for Long-Tailed Object Recognition CVPR 2020
论文地址
一个类别的每个正样本可以被视为其他类别的负样本,使尾部类别接收更多负的梯度。基于在,该文章提出了均衡损失,通过简单地忽略稀有类别的梯度来解决长尾稀有类别的问题。均衡损失保护在网络中处于不利地位的类别参数更新。
Equalization Loss v2: A New Gradient Balance Approach for Long-tailed Object Detection CVPR 2021
论文地址
Equalization loss的改良版
Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax CVPR 2020
论文地址
还没看
Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification ECCV 2020
论文地址
DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION ICLR 2020
论文地址
这篇文章提出了在长尾分布数据集下进行训练的时候,表征学习是正常的(采用正常采样方法,而不是基于类别进行采样),不正常的是分类器(classifier)。所以这篇文章提出了两阶段学习,第一阶段正常训练,但是二阶段只保留backbone,利用多种方法对分类器进行重构:重新训练分类器,分类器正则,最近邻等,最后达到了最佳性能。
Identifying and Compensating for Feature Deviation Imbalanced Deep Learning Nips2020