长尾分布系列论文解析（一）Decoupling Representation and Classifier for Long-Tailed Recognition

原创

已于 2022-11-21 09:36:39 修改 · 3.5k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2022-11-21 09:28:56 首次发布

本文探讨了长尾分布问题及其在分类任务中的影响。针对数据集类别分布不均等问题，文章介绍了多种采样策略及特征提取与分类器解耦合的训练方法，并通过实验证明了解耦训练的有效性。

大纲

引言

引言

看了挺多长尾分布的论文，从中获益匪浅，长尾分布的问题并不仅仅只局限于早期的分类问题之中，而是广泛存在于深度学习的多项任务之中。接下来一系列的文章将会去介绍近年来几篇典型的研究长尾分布的论文，这些论文也来自于不同的领域，足见长尾分布的普遍性。

首先给长尾分布下一个不那么严谨的定义，长尾分布指的是数据集中的多数样本只覆盖了一小部分的类别，而其他类别的样本只占据了总体的一小部分，表现出现了样本数量在类别上的不均衡。而更进一步的，长尾分布的的概念也可以扩充到回归问题上，比如在年龄预测问题上，一般我们都是将其作为回归问题来考量，而年龄分布也具有着长尾分布的特性，年龄处于中值的青壮年占人口的大部分，而年龄偏小的老幼只占小部分。
在这里插入图片描述

长尾分布带来的问题也十分的直观，网络训练过程中会更加倾向于向着多数样本的方向适应，而在少数样本上则会有些水土不服。

本篇所涉及到的论文为：

Decoupling Representation and Classifier for Long-Tailed Recognition

分类问题中的长尾分布

分类问题中的长尾分布问题也是被研究人员关注最多的问题，目前已经有了许多的应对方法，大体上可以划分为以下三个方向：

数据分布上的调整：既然长尾分布的问题源头在与数据中的类别分布不平衡，那么最简单的解决办法就是对数据进行重采样使其分布平衡。而依据重采样方法的不同，又可以继续划分为过采样和欠采样，前者通过对少数样本进行增广（如简单的复制）实现，后者通过减少多数样本的数目（如直接删除）实现。此外也有着也有类别均等采样的策略。（这一策略就是忽略原始分布，每一类样本被采样到的概率相同）
损失函数的调整：数据上的调整终究不可能无中生有，另一条可行的道路就是使得网络在训练时不要忽略少数样本。因此研究者选择对损失函数进行调整，为不同样本训练时的损失赋予不等的权重以对抗分布的不均等。
知识迁移：长尾分布导致网络所学到的知识主要来自于多数样本而忽视了少数样本，那么我们完全可以将抽象为迁移学习问题，即如何使得大数据集上训练模型在另一小数据集上保持特征提取能力。

而在Decoupling Representation and Classifier for Long-Tailed Recognition一文中，作者主要是对第一个方向的解法进行了思考，同时提出了一种新的解决策略–将特征提取器和分类器的训练过程解耦，主要结论如下：

常见的sampling策略并没有那么有效，在解耦训练的情况下，作者的多项采样策略方案对比中instance balance 采样也就是随机采样获得了最好的分类准确率。而其他的类别均等采样、平方根采样等复杂策略反而使得性能下降。
长尾分布问题中特征学习和两部分分阶段训练相比联合训练可以获得更好的效果。这里的分阶段训练指的是先将二者视为整体进行训练，再对最后分类器，也就是最后全连接层进行调整。这里的调整方法是可以冻住表征层，只对分类层额外训练多个epoch；或者是对分类层的权重进行非参的norm等等。结果表明大部分情况下这种decoupling的策略会比joint的方法表现更好，同时非参norm的结果也出人意料的优秀。但作者关于这部分的解释“分类的边界变宽，所以many shot类的判决效果好，few shot的效果差”，不是很懂。