MAE详解
0. 引言
masked autoencoders (MAE)
是用于CV的自监督学习方法
,优点是扩展性强
的(scalable),方法简单。在MAE方法中会随机mask输入图片的部分patches,然后重构这些缺失的像素。MAE基于两个核心设计:(1)不对称的(asymmetric)编码解码结构
,编码器仅仅对可见的patches进行编码,不对mask tokens进行任何处理,解码器将编码器的输出(latent representation)和mask tokens作为输入,重构image;(2)使用较高的mask比例
(如75%)。MAE展现了很强的迁移性能
,在ImageNet-1K上取得了best accuracy(87.8%),且因为方法简单,可扩展性极强(scalable)。
下图展示了MAE
在ImageNet
验证集上的重建结果。对于每个三元组,左边的图像是被遮挡
的,中间的图像是MAE重建
的