Masked Autoencoders Are Scalable Vision Learners
Author Unit: Facebook AI Research (FAIR)
Authors: Kaiming He ∗ , † ^{∗,†} ∗,† Xinlei Chen ∗ ^∗ ∗ Saining Xie Yanghao Li Piotr Dollár Ross Girshick
Conference: arXiv:2111.06377v1 [cs.CV] 11 Nov 2021
Paper address: https://arxiv.org/abs/2111.06377
bilibili_limu: https://www.bilibili.com/video/BV1sq4y1q77t
假设你的算法特别快,就把标题里面放 efficient;假设你做的东西比较大,就叫 scalable。 —李沐
💡 这里 Autoencoder 中的 Auto 不是指自动的意思,而是“自”,也就是训练样本 x 和标签 y 都是 x 本身。
💡 写论文的时候可以考虑用类似的标题样式,即 ** 是 **,就像这篇文章的标题,很好的将自己的工作浓缩成了一句简短的话。
Abstract
本文表明,masked autoencoders (MAE) 是用于计算机视觉的可扩展自监督学习器。我们的 MAE 方法很 simple:我们屏蔽输入图像的随机块并重建丢失的像素。它基于两个核心设计。首先,我们开发了非对称的编码器 - 解码器架构,其中编码器仅对可见的补丁 patches 子集(没有掩码标记)进行操作,以及一个轻量级的解码器,可从潜在表征 latent representation 和掩码标记 mask tokens 重建原始图像。其次,我们发现屏蔽大部分输入图像(例如 75%)会产生重要且有意义的自监督任务。将这两种设计结合起来使我们能够高效地训练大型模型:我们加速了训练(3 倍或更快)并提高了准确性。我们的可扩展方法允许学

Facebook AI Research的研究者提出了一种简单且可扩展的掩码自编码器(MAE),通过在视觉任务中屏蔽大部分输入并重建,促进了大型模型的训练效率和准确性。MAE利用非对称编码器-解码器结构和轻量级解码器,能在ImageNet-1K数据上显著提升ViT模型性能,展现出在对象检测等任务中的优秀迁移学习能力。
最低0.47元/天 解锁文章
932

被折叠的 条评论
为什么被折叠?



