Long tailed 长尾分布论文汇总

原创

已于 2022-04-20 18:12:03 修改 · 7k 阅读

86 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习 #神经网络

于 2021-04-14 11:18:57 首次发布

什么是长尾分布？

长期以来研究人员做图像、文本分类时使用的大多是均衡数据集：MNIST， CIFAR 10， CIFAR 100等，但是现实生活中的数据分布是非常不均衡的。有的类会占绝大多数，有的类别却很少出现。如果对这种分布不加以考虑，会导致尾部类别（tail）的预测结果受到很大影响，会严重的偏向头部类（head），如图所示：
long tail实例
目前对于长尾分布已经有很多工作去优化、考虑，在这里对最近自己看的论文进行总结。

计算机视觉

Class-Balanced Loss Based on Effective Number of Samples cvpr 2019
论文地址

这篇文章从有效数字的角度出发，考虑到每一个类别中数目的不一样，在损失函数中显式地去加入类别>相关的参数，使得分类结果得到提高。并且对CIFAR 10和CIFAR 100进行处理，手动地让它成为长尾数据集

Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective CVPR 2020
论文地址
该文章认为由于训练集当中数据不多，无法让模型学习到很好的表征，所以从域适应的角度来考虑，对于目标域t （测试集）以及源域s （训练集）对于尾类y 的 $P_t(x|y)/P_s(x|y)$ 并不相等，然而这个条件分布并没有办法直接估计，所以在论文中去学习这个参数，使得结果相比于上一篇有了进一步提升。

BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition CVPR 2020
论文地址
该篇文章提出了一种两分支模型，分别利用uniform sampler 和 reverse sampler进行数据采样之后，利用共享的特征提取器提取特征，最后用累积学习的方法学习分类器，最后得到loss。

Equalization Loss for Long-Tailed Object Recognition CVPR 2020
论文地址
一个类别的每个正样本可以被视为其他类别的负样本，使尾部类别接收更多负的梯度。基于在，该文章提出了均衡损失，通过简单地忽略稀有类别的梯度来解决长尾稀有类别的问题。均衡损失保护在网络中处于不利地位的类别参数更新。

Equalization Loss v2: A New Gradient Balance Approach for Long-tailed Object Detection CVPR 2021
论文地址
Equalization loss的改良版

Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax CVPR 2020
论文地址
还没看

Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification ECCV 2020
论文地址

DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION ICLR 2020
论文地址
这篇文章提出了在长尾分布数据集下进行训练的时候，表征学习是正常的（采用正常采样方法，而不是基于类别进行采样），不正常的是分类器（classifier）。所以这篇文章提出了两阶段学习，第一阶段正常训练，但是二阶段只保留backbone，利用多种方法对分类器进行重构：重新训练分类器，分类器正则，最近邻等，最后达到了最佳性能。