Paper: https://arxiv.org/pdf/2111.06377.pdf
动机
首先简要介绍下BERT,NLP领域的BERT是基于Transformer架构,并采取无监督预训练的方式去训练模型。它提出的预训练方法在本质上是一种masked autoencoding,也就是MLM(masked language modeling):去除数据的一部分然后学习恢复。

自从ViT火了之后,Transformer架构也可以应用于CV领域中了,一些研究者就开始尝试研究ViT的无监督学习,比如Mocov3用对比学习的方法无监督训练ViT,此外也有一些研究开始借鉴BERT中的MLM方法,比如BEiT提出了用于图像的无监督学习方法: MIM(masked image modeling)。但尽管如此,NLP领域已经在BERT的这种masked autoencoding方法下取得了巨大的进展,而CV领域中在无监督预训练这一块远远落后,主流的无监督训练还是对比学习。其中这种masked autoencoding方法并不是没在图像领域应用过,很早便就出现了,比如Denoising Autoencoders。但是至今却未取得像在NLP领域中的巨大发展。MAE论文对这个问题做了以下分析(参考:视觉无监督学习新范式:MAE):
- 图像的主流模型是CNN,而NLP的主流模型是transformer,CNN和tra

文章介绍了MAE(MaskedAutoencoder),这是一种针对视觉Transformer的无监督预训练方法,类似于NLP中的BERT。MAE通过高比例的patch遮挡和轻量级解码器设计,解决图像信息冗余问题,促进更高级特征的学习。实验表明,MAE在无监督预训练中表现优秀,尤其是在高遮挡率下,且其计算效率较高。
最低0.47元/天 解锁文章
2737

被折叠的 条评论
为什么被折叠?



