SupMAE:有监督掩码自编码器是高效的视觉学习器
论文:https://arxiv.org/abs/2205.14540v3
代码:https://arxiv.org/abs/2205.14540v3
年份:2024
背景
掩码图像建模(MIM)仅对缺失的局部补丁进行重建,缺乏对图像的全局理解。本文通过添加一个有监督分类分支,将MAE扩展到全监督设置,从而使MAE能够从黄金标签中有效学习全局特征。所提出的有监督MAE(SupMAE)仅利用图像补丁的可见子集进行分类,这与使用所有图像补丁的标准有监督预训练不同。
创新点
- 首次将监督信号引入 MAE,实现 “局部重建 + 全局分类” 双目标优化
- 基于 “图像空间冗余” 的高效分类设计:仅用可见补丁子集
- 全局池化替代 “类令牌”,优化全局特征表征
- 轻量级解码器与灵活损失平衡,兼顾性能与效率
贡献
- 据我们所知,这是首个研究有监督预训练是否能对MAE有所助益的工作。这一方向在直觉上是合理的,因为黄金标签能让MAE知晓自己正在重构的是什么概念
- 所提出的SupMAE仅使用可见补丁的一个子集进行分类,而非使用所有补丁的标准有监督预训练。这种设计还使SupMAE具有更高的样本效率:我们可以在训练期间利用所有输入标记,而不仅仅是被掩码的子集
- 通过实证实验,我们证明SupMAE具有更高的训练效率,并且它还能学习到更稳健的特征和更具可迁移性的特征
思路模块
实验核心目标
1.补充全局特征学习:通过监督分类分支,利用 “黄金标签” 让模型明确重构对象的语义概念,弥补 MAE 全局理解不足的缺陷;
2.提升训练效率:设计 “仅用可见补丁分类” 的机制,减少计算量,在更低预训练 epoch 和更少计算成本下达到 MAE 同等精度;
3.增强鲁棒性与迁移性:验证模型在图像变体鲁棒性(如噪声、对抗样本)和下游任务迁移(少样本分类、语义分割)上的优势,超越 MAE 与标准监督预训练方法。
预训练策略
双目标协同 + 高效计算设计

图1:SupMAE方法示意图。所提出的SupMAE在MAE的基础上进行了扩展,增加了一个用于有监督分类的分支,与现有的重建目标并行。在预训练阶段,只有一部分可见的图像块会由ViT编码器处理。它们对应的图像块特征被用于(1)重建缺失的像素和(2)进行类别分类。在微调阶段,编码器被应用于未损坏的图像以完成识别任务
1. 双目标并行优化:重构损失 + 分类损失
- 重构目标(继承 MAE):针对掩码补丁(约 75%),学习局部像素级特征,保留 MAE 对细粒度细节的学习能力;
- 监督分类目标(新增):针对可见补丁(约 25%),通过全局池化提取图像级特征,结合黄金标签学习全局语义,解决 MAE“只看局部、不见整体” 的问题;
二者的协同优势在于:重构目标利用掩码补丁的 “自监督信号” 学习低维特征,分类目标利用 “监督信号” 引导高维语义,且能利用100% 补丁计算损失(重构算掩码补丁,分类算可见补丁),而 MAE 仅用 30% 掩码补丁计算损失,样本效率更高。
2. 可见补丁子集分类:降低计算成本
对比优势:标准监督预训练(如 DeiT、ViT)需使用全部图像补丁(或 class token)计算分类损失,计算量庞大;而 SupMAE 仅用可见补丁子集(约 25%)进行分类,核心依据是 “图像存在空间冗余 —— 人类仅看部分补丁即可识别图像”,从而使 SupMAE 的单 epoch 计算成本仅为 MoCov3 的 30%(表 1),预训练 400 epoch 即可达到 MAE 1600 epoch 的 ImageNet-1K 精度(83.6%),计算效率提升 3 倍。
3. 掩码作为强正则化:减少数据增强依赖
在原论文中,作者团队提到,SupMAE 的随机掩码(75% 掩码率)在每次迭代中生成不同的 “局部观测样本”,天然具备数据增强效果,因此无需依赖 DeiT 等方法的复杂数据增强(如 Color Jitter、RandAug)
4. 损失权重平衡:避免目标偏移
总损失采用加权求和:
L = λ r e c L r e c + λ c l s L c l s \mathcal{L} = \lambda_{rec}\mathcal{L}_{rec} + \lambda_{cls}\mathcal{L}_{cls} L=λrecLrec+λclsLcls
其中 λ r e c = 1.0 \lambda_{rec} = 1.0 λrec=1.0、 λ c l s = 0.01 \lambda_{cls} = 0.01 λcls=0.01(表 5d)
原因分析:若分类损失权重过大,模型会退化为 “掩码版标准监督预训练”,丢失 MAE 的局部特征学习能力;若权重过小,全局语义引导不足。实验证明,小权重分类损失(0.01)能最佳平衡双目标
SupMAE方法实现
核心组件:编码器、重构解码器、分类头
- 编码器:ViT-B/16(默认),无额外修改
- 重构解码器:轻量级 Transformer(默认 1 层),位置嵌入 + 线性投影层
- 分类头:2 层 MLP(BatchNorm+ReLU 激活)
方法步骤实现
1:图像分块与掩码
- 输入图像 x ∈ R H × W × C x \in \mathbb{R}^{H \times W \times C} x∈RH×W×C (如ImageNet的224×224×3) 被划分为非重叠补丁 x p ∈ R N × ( P 2 ⋅ C ) x_p \in \mathbb{R}^{N \times (P^2 \cdot C)} xp∈RN×(P2⋅C),其中 P = 16 P = 16 P=16 (补丁大小)、 N = H × W / P 2 = 196 N = H \times W / P^2 = 196 N=H×W/P2=196 (总补丁数);
- 按75%掩码率随机划分补丁:可见补丁 x v x^v xv (约49个)、掩码补丁 x m x^m xm (约147个),无重叠且覆盖全图
2:可见补丁编码
- 可见补丁 x v x^v xv通过“线性投影层(PatchEmbed)”转换为嵌入向量,叠加位置嵌入(学习图像空间信息);
- 输入ViT编码器,经过多层自注意力与前馈网络,输出局部补丁特征 q v ∈ R K × D q^v \in \mathbb{R}^{K \times D} qv∈RK×D( K K K为可见补丁数, D D D为特征维度,如ViT-B的768)
3:重构分支计算
- 补全掩码token:由于 q v q^v qv仅对应可见补丁,需添加共享学习的掩码token(标记缺失位置),形成完整的特征序列(长度 N N N);
- 解码与像素重构:完整特征序列输入轻量级解码器,输出通过线性投影层映射到“补丁像素空间”(维度 P 2 ⋅ C P^2 \cdot C P2⋅C);
- 损失计算:采用MSE损失,仅对掩码补丁 x m x^m xm的重构结果计算误差(与MAE一致,避免可见补丁误差干扰)
4:分类分支计算
- 全局特征提取:对局部特征 q v q^v qv进行平均池化(表5b验证:比ViT的class token更优,因class token在局部补丁上学习不充分),得到全局图像特征 g ∈ R D g \in \mathbb{R}^D g∈RD;
- 类别预测:全局特征 g g g输入分类头,经过2层MLP与温度缩放( logits / τ \text{logits}/\tau logits/τ),输出类别概率分布;
- 损失计算:采用交叉熵损失,与黄金标签对比,学习全局语义
核心性能验证
1:ImageNet-1K 预训练方法对比(ViT-B/16)

表1:与有监督和自监督预训练方法的比较 所有方法均使用ViT-B/16模型。SupMAE表现出极高的效率,仅使用30%的计算资源就能达到与MAE相同的精度
目的:验证 SupMAE 的训练效率与精度平衡能力
结果:SupMAE 效率 - 精度最优平衡:仅用 30% 计算成本达到 MAE 同等精度,超越所有监督方法
2:ImageNet 变体鲁棒性评估

表2:在鲁棒性基准上的鲁棒性评估
目的:验证 SupMAE 对图像 corruption、语义偏移等扰动的适应性
数据集:
- IN-Corruption(噪声等)
- IN-Adversarial(对抗样本)
- IN-Rendition(语义偏移)
- IN-Sketch(纹理偏移)
结论:SupMAE全局鲁棒性最优:比 MAE 高 1.8%,比 DeiT 高 4.2%
核心发现:SupMAE 的监督分类分支学习的全局语义,提升了对 “局部扰动不改变全局语义” 场景的适应性(如 IN-Rendition、IN-Sketch)
3:验证 SupMAE 在训练效率与收敛速度上的优势

图2:不同预训练轮次的性能表现 MAE与SupMAE在不同预训练轮次下的对比。SupMAE效率更高,收敛速度更快
这里对比不同预训练 epoch 下 SupMAE 与 MAE(自监督基线)的 ImageNet-1K 微调精度,从而去验证“提升 MAE 训练效率” 的核心目标
结论:
SupMAE 收敛速度远快,100/200 epoch 精度均高于 MAE;仅需 400 epoch 就达 MAE 1600 epoch 的 83.6% 精度,训练效率显著更高;且 SupMAE 预训练 800 epoch 精度无提升,存在监督预训练的饱和特性。
4: 20 个分类数据集少样本迁移学习(ViT-B/16)

表3:少样本迁移学习。所有方法均使用相同的ViT-B/16架构。我们报告了在20个图像分类数据集上的线性探测和微调平均分数
目的:
验证 SupMAE 特征的迁移能力(少样本场景)
结论:
微调后 SupMAE 全面超越 MAE,50-shot 下比 MoCo-v3 高 1.4% SupMAE 的全局特征学习解决了 MAE “局部特征无法迁移全局语义” 的问题,端到端微调能进一步适配完整图像,迁移性最优
5:ADE20K 语义分割迁移(UperNet+ViT-B/16)

表4:在ADE20K上迁移至语义分割
所有方法均使用带有ViT-B/16骨干网络的UperNet
目的:
验证 SupMAE 对密集预测任务(语义分割)的迁移能力
结论:
SupMAE密集任务最优:mAcc 比 MAE 高 0.8%,说明对小众类别分割更准确
消融实验分析
目标:
验证 SupMAE 核心组件的必要性
1.预训练目标

- 仅重构(即 MAE):局部特征好,但全局语义差,lin 精度低
- 仅分类(掩码监督预训练):全局语义有,但局部特征差,ft 精度低
- 双目标最优:重构补局部,分类补全局,两者协同提升精度
2.特征聚合方式

- Class Token 依赖全图信息,仅用 25% 可见补丁训练不充分
- 全局池化更优:对局部补丁子集的特征聚合更有效,适配 SupMAE 设计
3.数据增强

- RandCrop(随机裁剪):从表中看,随机掩码已提供强正则化,无需额外数据增强
- RandCrop+CJit(颜色抖动):加颜色抖动无提升,甚至 ft 精度略降,验证 SupMAE 对数据增强的低依赖
4.解码器深度(Transformer 层数)

- 微调精度与层数无关:解码器仅服务重构,编码器特征已足够适配下游任务
- 线性探测精度随层数升高:更深解码器让重构更精细,编码器特征更通用
- 轻量化解码器可行:1 层解码器即可满足需求,降低计算成本
5.分类头 MLP 层数

- 1 层线性可分,适合线性探测,但特征抽象度低
- 2 层最优:平衡特征抽象度与适配性,适配双目标学习的特征
- 3 层过拟合:分类头复杂度过高,泛化性下降
总结
当前研究的局限性
SupMAE 虽在效率、鲁棒性、迁移性上超越基线方法,但是我们从论文实验与分析中仍暴露以下关键局限:
- 监督预训练的 “epoch 饱和” 问题显著
- 组件设计的适配性与通用性不足
- 模型架构适配性单一:实验主要基于 ViT-B/16 验证,仅在 SimMIM+Swin-Base 上做了简单兼容性测试(表 7,精度提升 0.2%),未深入探索在更大模型(如 ViT-L/H)、 hierarchical 架构(如 Swin-V2、ConvNeXt)上的表现,难以验证方法对不同视觉 Transformer 的普适性
未来研究方向
1.针对监督预训练的饱和问题,可设计自适应训练机制:
预训练前期用高掩码率(75%)强化局部特征学习,后期逐步降低掩码率(如 50%→30%),同时动态调整,引导模型在后期更聚焦全局语义,避免早停;
2.优化组件协同,未来可设计 “多任务共享解码器”—— 既支持掩码补丁重构,又能通过注意力机制增强编码器输出的全局特征,同步提升线性探测与微调性能,避免 “深度与成本” 的矛盾;
3.拓展适用场景,覆盖特殊任务与数据:在医学影像(如 CT、病理切片)、遥感图像(如 EuroSAT 扩展集)上测试,调整掩码率(如医学影像语义密度高,可降至 50% 掩码率)与特征聚合方式(如用注意力池化替代平均池化),验证 SupMAE 在非通用图像上的性能
结语
本文提出 Supervised MAE(SupMAE),通过在自监督 MAE 基础上新增监督分类分支,将其扩展为全监督预训练框架 —— 利用可见补丁子集学习全局特征(解决 MAE 缺乏全局理解的痛点),同时保留掩码补丁重构以学习局部特征,形成 “重构 + 分类” 双目标协同。
SupMAE 验证了监督信号与自监督 MIM 目标的兼容性,为视觉 Transformer 预训练提供了 “混合监督 - 自监督” 的高效范式,也为多目标预训练研究提供了参考。

被折叠的 条评论
为什么被折叠?



