SupMAE：有监督掩码自编码器是高效的视觉学习器-优快云博客

文章目录

SupMAE：有监督掩码自编码器是高效的视觉学习器
背景
创新点
- 贡献
思路模块
SupMAE方法实现
总结

SupMAE：有监督掩码自编码器是高效的视觉学习器

论文：https://arxiv.org/abs/2205.14540v3
代码：https://arxiv.org/abs/2205.14540v3
年份：2024

背景

掩码图像建模（MIM）仅对缺失的局部补丁进行重建，缺乏对图像的全局理解。本文通过添加一个有监督分类分支，将MAE扩展到全监督设置，从而使MAE能够从黄金标签中有效学习全局特征。所提出的有监督MAE（SupMAE）仅利用图像补丁的可见子集进行分类，这与使用所有图像补丁的标准有监督预训练不同。

创新点

首次将监督信号引入 MAE，实现 “局部重建 + 全局分类” 双目标优化
基于 “图像空间冗余” 的高效分类设计：仅用可见补丁子集
全局池化替代 “类令牌”，优化全局特征表征
轻量级解码器与灵活损失平衡，兼顾性能与效率

贡献

据我们所知，这是首个研究有监督预训练是否能对MAE有所助益的工作。这一方向在直觉上是合理的，因为黄金标签能让MAE知晓自己正在重构的是什么概念
所提出的SupMAE仅使用可见补丁的一个子集进行分类，而非使用所有补丁的标准有监督预训练。这种设计还使SupMAE具有更高的样本效率：我们可以在训练期间利用所有输入标记，而不仅仅是被掩码的子集
通过实证实验，我们证明SupMAE具有更高的训练效率，并且它还能学习到更稳健的特征和更具可迁移性的特征

思路模块

实验核心目标

1.补充全局特征学习：通过监督分类分支，利用 “黄金标签” 让模型明确重构对象的语义概念，弥补 MAE 全局理解不足的缺陷；
2.提升训练效率：设计 “仅用可见补丁分类” 的机制，减少计算量，在更低预训练 epoch 和更少计算成本下达到 MAE 同等精度；
3.增强鲁棒性与迁移性：验证模型在图像变体鲁棒性（如噪声、对抗样本）和下游任务迁移（少样本分类、语义分割）上的优势，超越 MAE 与标准监督预训练方法。

预训练策略

双目标协同 + 高效计算设计

在这里插入图片描述

图1：SupMAE方法示意图。所提出的SupMAE在MAE的基础上进行了扩展，增加了一个用于有监督分类的分支，与现有的重建目标并行。在预训练阶段，只有一部分可见的图像块会由ViT编码器处理。它们对应的图像块特征被用于（1）重建缺失的像素和（2）进行类别分类。在微调阶段，编码器被应用于未损坏的图像以完成识别任务

1. 双目标并行优化：重构损失 + 分类损失

重构目标（继承 MAE）：针对掩码补丁（约 75%），学习局部像素级特征，保留 MAE 对细粒度细节的学习能力；
监督分类目标（新增）：针对可见补丁（约 25%），通过全局池化提取图像级特征，结合黄金标签学习全局语义，解决 MAE“只看局部、不见整体” 的问题；

二者的协同优势在于：重构目标利用掩码补丁的 “自监督信号” 学习低维特征，分类目标利用 “监督信号” 引导高维语义，且能利用100% 补丁计算损失（重构算掩码补丁，分类算可见补丁），而 MAE 仅用 30% 掩码补丁计算损失，样本效率更高。

2. 可见补丁子集分类：降低计算成本

对比优势：标准监督预训练（如 DeiT、ViT）需使用全部图像补丁（或 class token）计算分类损失，计算量庞大；而 SupMAE 仅用可见补丁子集（约 25%）进行分类，核心依据是 “图像存在空间冗余 —— 人类仅看部分补丁即可识别图像”，从而使 SupMAE 的单 epoch 计算成本仅为 MoCov3 的 30%（表 1），预训练 400 epoch 即可达到 MAE 1600 epoch 的 ImageNet-1K 精度（83.6%），计算效率提升 3 倍。

3. 掩码作为强正则化：减少数据增强依赖

在原论文中，作者团队提到，SupMAE 的随机掩码（75% 掩码率）在每次迭代中生成不同的 “局部观测样本”，天然具备数据增强效果，因此无需依赖 DeiT 等方法的复杂数据增强（如 Color Jitter、RandAug）

4. 损失权重平衡：避免目标偏移

总损失采用加权求和：

$\mathcal{L} = \lambda_{rec}\mathcal{L}_{rec} + \lambda_{cls}\mathcal{L}_{cls}$

其中 $\lambda_{rec} = 1.0$ 、 $\lambda_{cls} = 0.01$ （表 5d）

原因分析：若分类损失权重过大，模型会退化为 “掩码版标准监督预训练”，丢失 MAE 的局部特征学习能力；若权重过小，全局语义引导不足。实验证明，小权重分类损失（0.01）能最佳平衡双目标

SupMAE方法实现

核心组件：编码器、重构解码器、分类头

编码器：ViT-B/16（默认），无额外修改
重构解码器：轻量级 Transformer（默认 1 层），位置嵌入 + 线性投影层
分类头：2 层 MLP（BatchNorm+ReLU 激活）

方法步骤实现

1：图像分块与掩码

输入图像 $\in \mathbb{R}^{H \times W \times C}$ (如ImageNet的224×224×3) 被划分为非重叠补丁 $x_p \in \mathbb{R}^{N \times (P^2 \cdot C)}$ ，其中 $P = 16$ (补丁大小)、 $\times W / P^2 = 196$ (总补丁数)；
按75%掩码率随机划分补丁：可见补丁 $x^v$ (约49个)、掩码补丁 $x^m$ (约147个)，无重叠且覆盖全图

2：可见补丁编码

可见补丁 $x^v$ 通过“线性投影层（PatchEmbed）”转换为嵌入向量，叠加位置嵌入（学习图像空间信息）；
输入ViT编码器，经过多层自注意力与前馈网络，输出局部补丁特征 $q^v \in \mathbb{R}^{K \times D}$ （ $K$ 为可见补丁数， $D$ 为特征维度，如ViT-B的768）

3：重构分支计算

补全掩码token：由于 $q^v$ 仅对应可见补丁，需添加共享学习的掩码token（标记缺失位置），形成完整的特征序列（长度 $N$ ）；
解码与像素重构：完整特征序列输入轻量级解码器，输出通过线性投影层映射到“补丁像素空间”（维度 $P^2 \cdot C$ ）；
损失计算：采用MSE损失，仅对掩码补丁 $x^m$ 的重构结果计算误差（与MAE一致，避免可见补丁误差干扰）

4：分类分支计算

全局特征提取：对局部特征 $q^v$ 进行平均池化（表5b验证：比ViT的class token更优，因class token在局部补丁上学习不充分），得到全局图像特征 $\in \mathbb{R}^D$ ；
类别预测：全局特征 $g$ 输入分类头，经过2层MLP与温度缩放（ $\text{logits}/\tau$ ），输出类别概率分布；
损失计算：采用交叉熵损失，与黄金标签对比，学习全局语义

核心性能验证

1：ImageNet-1K 预训练方法对比（ViT-B/16）

在这里插入图片描述

表1：与有监督和自监督预训练方法的比较所有方法均使用ViT-B/16模型。SupMAE表现出极高的效率，仅使用30%的计算资源就能达到与MAE相同的精度

目的：验证 SupMAE 的训练效率与精度平衡能力
结果：SupMAE 效率 - 精度最优平衡：仅用 30% 计算成本达到 MAE 同等精度，超越所有监督方法

2：ImageNet 变体鲁棒性评估

在这里插入图片描述

表2：在鲁棒性基准上的鲁棒性评估

目的：验证 SupMAE 对图像 corruption、语义偏移等扰动的适应性

数据集：

IN-Corruption（噪声等）
IN-Adversarial（对抗样本）
IN-Rendition（语义偏移）
IN-Sketch（纹理偏移）

结论：SupMAE全局鲁棒性最优：比 MAE 高 1.8%，比 DeiT 高 4.2%

核心发现：SupMAE 的监督分类分支学习的全局语义，提升了对 “局部扰动不改变全局语义” 场景的适应性（如 IN-Rendition、IN-Sketch）

3:验证 SupMAE 在训练效率与收敛速度上的优势

在这里插入图片描述

图2：不同预训练轮次的性能表现 MAE与SupMAE在不同预训练轮次下的对比。SupMAE效率更高，收敛速度更快

这里对比不同预训练 epoch 下 SupMAE 与 MAE（自监督基线）的 ImageNet-1K 微调精度，从而去验证“提升 MAE 训练效率” 的核心目标

结论：
SupMAE 收敛速度远快，100/200 epoch 精度均高于 MAE；仅需 400 epoch 就达 MAE 1600 epoch 的 83.6% 精度，训练效率显著更高；且 SupMAE 预训练 800 epoch 精度无提升，存在监督预训练的饱和特性。

4: 20 个分类数据集少样本迁移学习（ViT-B/16）

在这里插入图片描述

表3：少样本迁移学习。所有方法均使用相同的ViT-B/16架构。我们报告了在20个图像分类数据集上的线性探测和微调平均分数

目的：
验证 SupMAE 特征的迁移能力（少样本场景）

结论：
微调后 SupMAE 全面超越 MAE，50-shot 下比 MoCo-v3 高 1.4% SupMAE 的全局特征学习解决了 MAE “局部特征无法迁移全局语义” 的问题，端到端微调能进一步适配完整图像，迁移性最优

5：ADE20K 语义分割迁移（UperNet+ViT-B/16）

在这里插入图片描述

表4：在ADE20K上迁移至语义分割
所有方法均使用带有ViT-B/16骨干网络的UperNet

目的：
验证 SupMAE 对密集预测任务（语义分割）的迁移能力

结论：
SupMAE密集任务最优：mAcc 比 MAE 高 0.8%，说明对小众类别分割更准确

消融实验分析

目标：
验证 SupMAE 核心组件的必要性

1.预训练目标

在这里插入图片描述

仅重构（即 MAE）：局部特征好，但全局语义差，lin 精度低
仅分类（掩码监督预训练）：全局语义有，但局部特征差，ft 精度低
双目标最优：重构补局部，分类补全局，两者协同提升精度

2.特征聚合方式

在这里插入图片描述

Class Token 依赖全图信息，仅用 25% 可见补丁训练不充分
全局池化更优：对局部补丁子集的特征聚合更有效，适配 SupMAE 设计

3.数据增强

在这里插入图片描述

RandCrop（随机裁剪）:从表中看，随机掩码已提供强正则化，无需额外数据增强
RandCrop+CJit（颜色抖动）:加颜色抖动无提升，甚至 ft 精度略降，验证 SupMAE 对数据增强的低依赖

4.解码器深度（Transformer 层数）

在这里插入图片描述

微调精度与层数无关：解码器仅服务重构，编码器特征已足够适配下游任务
线性探测精度随层数升高：更深解码器让重构更精细，编码器特征更通用
轻量化解码器可行：1 层解码器即可满足需求，降低计算成本

5.分类头 MLP 层数

在这里插入图片描述

1 层线性可分，适合线性探测，但特征抽象度低
2 层最优：平衡特征抽象度与适配性，适配双目标学习的特征
3 层过拟合：分类头复杂度过高，泛化性下降

总结

当前研究的局限性

SupMAE 虽在效率、鲁棒性、迁移性上超越基线方法，但是我们从论文实验与分析中仍暴露以下关键局限：

监督预训练的 “epoch 饱和” 问题显著
组件设计的适配性与通用性不足
模型架构适配性单一：实验主要基于 ViT-B/16 验证，仅在 SimMIM+Swin-Base 上做了简单兼容性测试（表 7，精度提升 0.2%），未深入探索在更大模型（如 ViT-L/H）、 hierarchical 架构（如 Swin-V2、ConvNeXt）上的表现，难以验证方法对不同视觉 Transformer 的普适性

未来研究方向

1.针对监督预训练的饱和问题，可设计自适应训练机制：
预训练前期用高掩码率（75%）强化局部特征学习，后期逐步降低掩码率（如 50%→30%），同时动态调整，引导模型在后期更聚焦全局语义，避免早停；
2.优化组件协同，未来可设计 “多任务共享解码器”—— 既支持掩码补丁重构，又能通过注意力机制增强编码器输出的全局特征，同步提升线性探测与微调性能，避免 “深度与成本” 的矛盾；
3.拓展适用场景,覆盖特殊任务与数据:在医学影像（如 CT、病理切片）、遥感图像（如 EuroSAT 扩展集）上测试，调整掩码率（如医学影像语义密度高，可降至 50% 掩码率）与特征聚合方式（如用注意力池化替代平均池化），验证 SupMAE 在非通用图像上的性能

结语

本文提出 Supervised MAE（SupMAE），通过在自监督 MAE 基础上新增监督分类分支，将其扩展为全监督预训练框架 —— 利用可见补丁子集学习全局特征（解决 MAE 缺乏全局理解的痛点），同时保留掩码补丁重构以学习局部特征，形成 “重构 + 分类” 双目标协同。
SupMAE 验证了监督信号与自监督 MIM 目标的兼容性，为视觉 Transformer 预训练提供了 “混合监督 - 自监督” 的高效范式，也为多目标预训练研究提供了参考。