Self-Supervised Learning of Pretext-Invariant Representation

介绍一种自监督学习方法PIRL,该方法通过使图像表征在不同图像变换下保持不变,学习到高质量的语义特征。PIRL通过最小化对比损失函数,使图像及其变换后的表征接近,同时与其他图像的表征区别开,实验表明其在多个任务上的表现优于有监督预训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Self-Supervised Learning of Pretext-Invariant Representation

1.论文摘要

提出了一种不根据不同pretext task 中 的图像变换而改变的语义表征自监督学习方法(Pretext Invariant Representation Learning-PIRL).通过该方法学到的图像表征具有invariance 特性,且语义质量更高,并超过了许多有监督学习预训练任务的表现。

2.论文方法

其他论文的思路是将原始图片经过变换后,预测图像变换的一些性质,因此学到的特征是随着这种变换的不同而改变的低级特征,对于一些语义识别任务表现不好。
在这里插入图片描述
本文的PIRL: 首先定义一个表征网络N;图像A经过N得其表征为A_f,对图像A处理(如上图所示的拼图重排)后得图像a经过N得其表征为a_f;经过训练后使得A_f和a_f尽可能相近,同时A_f和x_f(x≠a)却相差很大。

通过最小化经验损失来训练网络参数。其中DDD代表图像数据集,p(T)代表图像transfomation的分布,ItI^tIt代表经过变化t后的图像,θ\thetaθ代表网络参参数, VIV_IVI代表图像经过网络学到的特征。
在这里插入图片描述

  • Loss Function
    定义了一个Contrastive loss function L, 目标是让图像I的表征尽可能与其转换后的ItI^tIt相似,与其他图像数据的表征尽可能的不同。
    在这里插入图片描述
    s(⋅,⋅)s(·,·)s()代表余弦相似的计算,并且在计算s之前让特征经过不同的”head" 的计算, g(·)和f(·).
    在这里插入图片描述
    为了增加负例的个数而不增加batch size,采用了Memory bank的方式。 在M中包含了每个图片I的特征表示,通过exponetial moving average的方法更新之前epoch计算的f(VI)f(V_I)f(VI).
    在这里插入图片描述
    最终loss function
    在这里插入图片描述
    其中第二项使得f(VI)f(V_I)f(VI)尽可能和memory表征mIm_ImI相似,使得其和mI’m_I’mI尽可能不想似。
  • 实现细节
    f(VI)f(V_I)f(VI): 图像I经res5网络(即ResNet-50的前5层),然后进行一次average pooling和一次线性映射得到一个128维的向量表征;
    g(V(It))g(V_(I^t))g(V(It)): 图像I分为3块拼图,每块拼图都分别经res5网络处理后进行一次average pooling, 然后分别进行一次线性映射得到3个总共128维的向量,将这3个向量随机排序后合并,然后再进行一次线性映射得到一个128维的向量表征;

3.实验结果

在这里插入图片描述
在目标检测任务超过了其他自监督学习方法, 并对原始Jigsaw pretext task 预训练结果提升了五个点。在其他任务如IMage classification with linear models 和不同数据集上也都取得了超过其他自监督预训练的方法。
在这里插入图片描述
通过对比原始图像表征和转换后图像表征的l2 distance,证明PIRL学到的表征是invariant。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值