Masked Autoencoders Are Scalable Vision Learners | MAE 阅读笔记&部分翻译

最新推荐文章于 2025-10-15 20:49:06 发布

原创

最新推荐文章于 2025-10-15 20:49:06 发布 · 3.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #人工智能 #深度学习 #transformer #图像识别

Facebook AI Research的研究者提出了一种简单且可扩展的掩码自编码器（MAE），通过在视觉任务中屏蔽大部分输入并重建，促进了大型模型的训练效率和准确性。MAE利用非对称编码器-解码器结构和轻量级解码器，能在ImageNet-1K数据上显著提升ViT模型性能，展现出在对象检测等任务中的优秀迁移学习能力。

Masked Autoencoders Are Scalable Vision Learners

Author Unit: Facebook AI Research (FAIR)

Authors: Kaiming He $^{∗,†}$ Xinlei Chen $^∗$ Saining Xie Yanghao Li Piotr Dollár Ross Girshick

Conference: arXiv:2111.06377v1 [cs.CV] 11 Nov 2021

Paper address: https://arxiv.org/abs/2111.06377

bilibili_limu: https://www.bilibili.com/video/BV1sq4y1q77t

Notion 版本的笔记

假设你的算法特别快，就把标题里面放 efficient；假设你做的东西比较大，就叫 scalable。 —李沐

💡 这里 Autoencoder 中的 Auto 不是指自动的意思，而是“自”，也就是训练样本 x 和标签 y 都是 x 本身。

💡 写论文的时候可以考虑用类似的标题样式，即 ** 是 **，就像这篇文章的标题，很好的将自己的工作浓缩成了一句简短的话。

Abstract

本文表明，masked autoencoders (MAE) 是用于计算机视觉的可扩展自监督学习器。我们的 MAE 方法很 simple：我们屏蔽输入图像的随机块并重建丢失的像素。它基于两个核心设计。首先，我们开发了非对称的编码器 - 解码器架构，其中编码器仅对可见的补丁 patches 子集（没有掩码标记）进行操作，以及一个轻量级的解码器，可从潜在表征 latent representation 和掩码标记 mask tokens 重建原始图像。其次，我们发现屏蔽大部分输入图像（例如 75%）会产生重要且有意义的自监督任务。将这两种设计结合起来使我们能够高效地训练大型模型：我们加速了训练（3 倍或更快）并提高了准确性。我们的可扩展方法允许学

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。