1. 论文摘要
作者提出了一种新的监督训练的loss, 这种loss 是基于contrast loss的优化目标,不同的是每个锚点取多个正例, 目的是使相同label 的normalized embedding 尽可能接近,不同label的尽可能远。最终结果证明,新的loss要比cross entropy训练更加稳定, 并且在分类任务的结果要好1.6%, 在ImageNet 数据集上达到了78.8%的 top 1 准确率。
2. 方法介绍
(a)代表传统的交叉熵loss 主要是在最后一层通过softmax 结果和 label 来训练模型。
(b)代表自监督的contrastive loss, 通过数据增强方法来构建正负例样本, 进而优化模型。
©第一阶段,利用label 来做contrast loss. 第二阶段,冻住学到的特征,然后通过一个全连接层做softmax loss.
-
supervised contrastive loss
这里 N y i ^ N_{\hat{y_i}} Nyi^代表在一个minibatch 里属于同一个class 的图片数目。这个新的loss设计特点主要有:
(1)任意数量的正例的泛化
对于锚点 y i ^ \hat{y_i} yi^,分子中正例的选择不仅包括通过通过数据增强产生的还包括整个minibatch 中属于同一个class的。
(2)与contrastive loss 一致,负例数量越多,对正负样本的判别的效果越好。 -
supervised loss gradients properties
通过对loss 梯度的分析,发现优化监督损失更多是关注难分辨的正例和负例。
式子中
w
i
w_i
wi为映射层输出结果,在没过normalization前的输出。
可以发现,当是很相似容易分辨的正例时,梯度趋近为0。同理对于容易分辨的负例。
3.实验结果
相对于cross entropy, top 1 的准确率提升百分之1%。
并且对于不同数据增强方法,optimizer以及learning rate 的变化就有更强鲁棒性。
模型的效果和正例选取的数量是正相关的。
总结: 借鉴了自监督学习中的contrast loss 的方法,构建了图像分类问题的supervised contrastive loss 来代替cross entropy loss, 并且提出了对于每个锚点,根据label种类提取多个正例的方法,结果对于超参的变化更加鲁棒,在增加了50%训练时间的代价下,取得了1%的提升。