Self-Supervised Learning of Pretext-Invariant Representation

最新推荐文章于 2023-09-30 02:38:31 发布

pitaojun

最新推荐文章于 2023-09-30 02:38:31 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：语音识别asr 文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/pitaojun/article/details/108563762

语音识别asr 专栏收录该内容

26 篇文章

订阅专栏

介绍一种自监督学习方法PIRL，该方法通过使图像表征在不同图像变换下保持不变，学习到高质量的语义特征。PIRL通过最小化对比损失函数，使图像及其变换后的表征接近，同时与其他图像的表征区别开，实验表明其在多个任务上的表现优于有监督预训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Self-Supervised Learning of Pretext-Invariant Representation

1.论文摘要

提出了一种不根据不同pretext task 中的图像变换而改变的语义表征自监督学习方法（Pretext Invariant Representation Learning-PIRL).通过该方法学到的图像表征具有invariance 特性，且语义质量更高，并超过了许多有监督学习预训练任务的表现。

2.论文方法

其他论文的思路是将原始图片经过变换后，预测图像变换的一些性质，因此学到的特征是随着这种变换的不同而改变的低级特征，对于一些语义识别任务表现不好。
在这里插入图片描述
本文的PIRL: 首先定义一个表征网络N；图像A经过N得其表征为A_f，对图像A处理（如上图所示的拼图重排）后得图像a经过N得其表征为a_f；经过训练后使得A_f和a_f尽可能相近，同时A_f和x_f（x≠a）却相差很大。

通过最小化经验损失来训练网络参数。其中 $D$ 代表图像数据集，p(T)代表图像transfomation的分布， $I^t$ 代表经过变化t后的图像， $θ\theta$ 代表网络参参数， $V_I$ 代表图像经过网络学到的特征。
在这里插入图片描述

Loss Function
定义了一个Contrastive loss function L, 目标是让图像I的表征尽可能与其转换后的 $I^t$ 相似，与其他图像数据的表征尽可能的不同。

$s (\cdot ， \cdot)$ 代表余弦相似的计算，并且在计算s之前让特征经过不同的”head" 的计算， g(·)和f(·).

为了增加负例的个数而不增加batch size，采用了Memory bank的方式。在M中包含了每个图片I的特征表示，通过exponetial moving average的方法更新之前epoch计算的 $f(V_I)$ .

最终loss function

其中第二项使得 $f(V_I)$ 尽可能和memory表征 $m_I$ 相似，使得其和 $m_I’$ 尽可能不想似。
实现细节
$f(V_I)$ : 图像I经res5网络（即ResNet-50的前5层），然后进行一次average pooling和一次线性映射得到一个128维的向量表征；
$g(V_(I^t))$ : 图像I分为3块拼图，每块拼图都分别经res5网络处理后进行一次average pooling，然后分别进行一次线性映射得到3个总共128维的向量，将这3个向量随机排序后合并，然后再进行一次线性映射得到一个128维的向量表征；

3.实验结果

在这里插入图片描述
在目标检测任务超过了其他自监督学习方法，并对原始Jigsaw pretext task 预训练结果提升了五个点。在其他任务如IMage classification with linear models 和不同数据集上也都取得了超过其他自监督预训练的方法。

通过对比原始图像表征和转换后图像表征的l2 distance，证明PIRL学到的表征是invariant。