Hybrid-PSC：基于对比学习的混合网络，解决长尾图片分类 | CVPR 2021

最新推荐文章于 2024-09-09 13:05:30 发布

原创

最新推荐文章于 2024-09-09 13:05:30 发布 · 1.1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #计算机视觉 #目标检测 #分类 #人工智能

论文提出新颖的混合网络用于解决长尾图片分类问题，该网络由用于图像特征学习的对比学习分支和用于分类器学习的交叉熵分支组成，在训练过程逐步将训练权重调整至分类器学习，达到更好的特征得出更好的分类器的思想。另外，为了节省内存消耗，论文提出原型有监督对比学习。从实验结果来看，论文提出的方法效果还是很不错的，值得一看

来源：晓飞的算法工程笔记公众号

论文: Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification

论文地址：https://arxiv.org/abs/2103.14267
论文代码：https://www.kaihan.org/HybridLT/

Introduction

在实际场景中，图片类别通常都会呈现长尾分布，不常见的类别通常由于数据不足而无法被充分学习，给分类器的学习带来巨大的挑战。当前大多研究都通过减轻尾部类别的数据短缺来应对数据不平衡的问题，防止模型被头部类别控制，如数据重采样和数据增强等。
最近，有新的研究提出将长尾数据分类问题分解为特征学习和分类器学习两个阶段，认为这两个阶段适用不同的数据采样策略进行学习，比如随机采样更适合特征学习，而类别平衡采样更适合分类器学习。

但有一点需要注意的是，上述两类研究都没有考虑到，在数据不平衡场景下，交叉熵损失是否仍为特征学习的理想损失函数。交叉熵损失学习到的特征分布可能会高度倾斜，如上图所示，导致分类器存在偏向性，会影响长尾分类。
为此，论文研究了高效的对比学习策略，将其适配到不平衡数据中学习特征表达，提高长尾图片分类场景的性能。论文采用了新颖的混合网络结构，由用于特征表达学习的对比损失和用于分类器学习的交叉熵损失组成。两个损失联合训练，在训练过程中逐渐调整两个损失的权重，从特征学习逐步转移为分类器学习，遵循更好的特征产生更好的分类器的思想。

论文一开始采用从无监督对比(UC)中延伸出来的有监督对比(SC)损失用于特征学习，该损失使用batch内的样本进行相互对比，通过区分负样本来优化正样本间的一致性，如图左所示。如果想要保证优化效果，需要确保对比的正样本够多以及负样本覆盖足够多的类别，通常需要使用较大的batch，导致内存消耗过多。为了解决这个问题，论文提出了原型有监督对比(PSC)学习策略，从batch内的样本间对比改为batch内的样本与额外维护的原型进行对比，如图右所示。在保持原本有监督对比的特性的情况下，原型有监督对比避免了过多的内存消耗，还能使数据采样更灵活和高效。
论文的主要贡献如下：

提出用于长尾数据分类的混合网络结构，由用于特征表达学习的对比损失和用于分类器学习的交叉熵损失组成。在训练过程中逐渐调整两个损失的权重，从特征学习逐步转移为分类器学习，遵循更好的特征产生更好的分类器的思想。
研究高效的有监督对比学习策略用于更优的特征学习，提高长尾分类性能。另外，论文提出原型有监督对比来解决标准有监督对比的内存问题。
验证在长尾分类场景中，有监督对比学习能更好地替代交叉熵损失进行特征学习。得益于学习到更好的特征，论文提出的混合网络能够极大地超越基于交叉熵的网络。

Contrastive learning

Unsupervised contrastive

无监督对比学习在无标签的场景下，通过同源图片与非同源图片之间的特征对比来进行特征表达的学习。比如先随机选取n张原图片，经过数据增强后变成2n张图片组成batch，将同源副本相互认为正样本、非同源副本认为负样本进行距离学习。

Supervised contrastive

有监督对比学习主在有标签的场景下，通过同类别图片与非同类别图片之间的特征对比来进行特征表达的学习。有监督对比学习也是需要进行数据增强生成同源副本的，所以正样本包含同源副本和同类别副本。比如选取n张原图片，经过数据增强后变成2n张图片组成batch，将同类图片相互认为正样本、非同类图片认为负样本进行距离学习。这里的n张图片选取不能随机选，为达到有监督的目的，同类别图片要大于1张。

Main Approach

A Hybrid Framework for Long-tailed Classification

论文提出的用于长尾图像分类的混合框架如上图所示，包含两个分支：

用于图像特征学习的对比学习分支，构造同类内聚、异类分离的特征空间。
用于分类器学习的交叉熵分支，基于对比学习分支得到的显著特征学习类别偏向较少的分类器。

为了达到用更好的特征帮助分类器进行学习，从而得到更通用的分类器的目的。论文参考了BBN的双分支联合训练方法，在训练阶段逐步调整这两个分支的权重。在训练初期以特征学习作为主导，随着训练的进行，分类器学习逐级主导训练。
主干网络在分支间共享，共同帮助主干网络学习每个图片的特征 $r\in\mathcal{R}^{D_E}$ 。两个分支分别进行不同的操作：

对比学习分支先通过MLP层 $f_e(\cdot)$ 将图片特征 $r$ 映射成向量表达 $z\in\mathcal{R}^{D_S}$ ，适配后续对比损失函数的计算。另外，这样的特征向量化转换也有助于提升前一层的特征质量。随后，对特征 $z$ 进行 $\mathcal{l}_2$ 归一化，使其能够用于距离计算。最后，使用输出的归一化特征计算有监督对比损失 $\mathcal{L}_{SCL}$ 。
分类器学习分支先通过单个线性层从图像特征 $r$ 预测类别结果 $s\in\mathcal{R}^{D_C}$

最低0.47元/天解锁文章

200万优质内容无限畅学