深度学习(自监督:CPC v2)——Data-Efficient Image Recognition with Contrastive Predictive Coding

最新推荐文章于 2024-10-31 11:23:47 发布

菜到怀疑人生

最新推荐文章于 2024-10-31 11:23:47 发布

阅读量2.8k

点赞数 4

分类专栏：深度学习

本文链接：https://blog.youkuaiyun.com/dhaiuda/article/details/117870030

版权

深度学习专栏收录该内容

58 篇文章

订阅专栏

本文介绍了CPCv2（对比预测编码v2）在自监督学习上的改进，相较于CPCv1，CPCv2通过增大模型容量、替换BN层、增加预测方向和采用更强的数据增强，显著提升了在ImageNet上的性能，top-1准确率从48.7%提升至71.5%。实验表明，CPCv2预训练的模型在有限数据下能达到与从头训练模型相当的性能，展示出自监督学习的强大潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

这篇文章发表在ICML 2020上。

这篇文章对CPC v1进行了改进，在ImageNet上的top-1准确率从 48.7%提升至71.5%。

本文将简单介绍CPC v2，实验部分在此不总结。

论文的Figure 1给出了一个很有意思的图，如下图：
在这里插入图片描述
蓝线为利用CPC v1 pretrain一个ResNet，将其在ImageNet上finetune后的性能，红线为ResNet直接在ImageNet上training from scratch，横轴为finetune/train用到的训练数据，可以看到，随着训练数据的减少，training from scratch的模型性能下降尤为明显，并且当使用全部数据训练模型时，finetune的模型性能也比traning from scratch的效果好。这表明相比于training from scratch的模型，使用自监督pretrain的模型，利用更少的训练数据，就可以达到相似的性能，即将自监督训练好的模型，应用到下游任务时，可能只需要少量数据就可以达到不错的性能。

CPC v1介绍

在这里插入图片描述
上图是CPC v2的模型结构，为了方便说明，我把它放在了CPC v1一节中。

输入图像会被分成若干个overlapping的patch， $X_{i,j}$ 表示第 $i$ 行，第 $j$ 列的patch
所有的patch都会经过一个特征提取器提取特征（对应蓝色的模型），得到一系列的特征向量 $Z_{i,j}$
将位于第 $i$ 行第 $j$ 列的特征向量 $Z_{i,j}$ ，以及位于第 $i$ 行第 $j$ 列上方的特征向量 $Z_{u,j}$ ( $u < i$ ) concat在一起，经过一个Context network $G_{\phi}$ （对应红色的模型）处理，得到一个context vector $C_{i,j}$
对 $C_{i,j}$ 施加一个线性变化，线性变化矩阵为 $W_k$ ，即 $\hat Z_{i+k,j}=W_k C_{i,j}$ ，利用 $\hat Z_{i+k,j}$ 与 $Z_{i+k,j}$ 进行对比学习，可以简单理解为利用一张图像上半部分的特征，预测图像下半部分的特征

对比学习的损失函数为InfoNCE，如下：
在这里插入图片描述
负例 $Z_l$ 来自于其他batch的图像块，或是同一张图像的其他图像块。

个人观点：CPC v1的操作不难理解，以人为例，如果我们理解一只狗长什么样，那我们看到一张图像中狗的上半部分，自然能联想到图像下半部分狗的形状。想让InfoNCE损失函数下降，就必须建立图像中狗的上半部分与下半部分的联系，这些联系可能可以让模型理解狗长什么样，即狗具有什么特征。

CPC v2介绍

对于自监督而言，trick对性能的影响非常大，这点和之前研究的continual learning很不一样。

相比于CPC v1，CPC v2引入了更多trick，具体而言

使用更大的模型，CPC v1只使用了ResNet-101中的前三个residual stack，CPC v2将模型加深为ResNet-161（ImageNet top-1准确率提升5%），同时提高了输入图像块的分辨率（从60x60变为80x80，ImageNet top-1准确率提升2%）。
由于CPC v1的预测只和若干个patch有关，而BN会引入其他patch的信息，类似于图像生成，BN算法会损害CPC v1的性能，作者利用层归一化替换BN，ImageNet top-1准确率提升2%。
由于大模型更容易过拟合，作者提升了自监督任务的难度，预测一个patch，CPC v2用到了上下左右四个方向的feature vector，而CPC v1只用到了上方的feature vector。由于CPC v2接触的语义信息更多，提取出与下方patch相关的语义信息的难度也会增大。ImageNet top-1准确率提升2.5%。
使用更好的数据增强，首先随机取出rgb三通道中的两个通道，ImageNet top-1准确率提升3%，接着施加一些几何、颜色、弹性变形等数据增强，ImageNet top-1准确率提升4.5%，可见数据增强对自监督影响很大。

上述trick对CPC v1的影响如下图
在这里插入图片描述