论文链接: https://www.aminer.cn/pub/618ddb455244ab9dcbda8f5f?f=cs
作者先将图像均匀划分为非重叠区块,然后随机对区块进行采样。
以遮蔽比例75%为例,它先在输入图像中掩蔽75%的随机区块,编码器只在可见的25%区块子集上运行,这样就可以只用非常少的计算和显存,来训练非常大的编码器。
然后解码器将可见的token和掩码token组合,并向所有token中添加位置嵌入,通过预测每个掩蔽区块的像素值来重建图像信号。
这样一来,在预训练时解码器可以独立于编码器,从而可以用非常轻量级解码器实验,大量减少预训练时间。
另一个特点则是对输入图像的高比例进行遮蔽时,自监督任务效果非常好。
AMiner,让AI帮你理解科学!https://www.aminer.cn




AMiner推荐论文:Masked Autoencoders Are Scalable Vision Learners
该论文提出了一种新的图像预训练方法,通过将图像划分为非重叠区块并随机遮蔽大部分区块,仅使用少量计算资源训练大型编码器。解码器接收可见区块和掩蔽区块的信息,预测被遮蔽区块的像素值,实现图像重建。这种方法允许使用轻量级解码器,减少了预训练时间,且在高比例遮蔽时自监督任务表现优异。

2万+

被折叠的 条评论
为什么被折叠?



