SupMAE:有监督掩码自编码器是高效的视觉学习器

部署运行你感兴趣的模型镜像

SupMAE:有监督掩码自编码器是高效的视觉学习器

论文:https://arxiv.org/abs/2205.14540v3
代码:https://arxiv.org/abs/2205.14540v3
年份:2024

背景

掩码图像建模(MIM)仅对缺失的局部补丁进行重建,缺乏对图像的全局理解。本文通过添加一个有监督分类分支,将MAE扩展到全监督设置,从而使MAE能够从黄金标签中有效学习全局特征。所提出的有监督MAE(SupMAE)仅利用图像补丁的可见子集进行分类,这与使用所有图像补丁的标准有监督预训练不同。

创新点

  • 首次将监督信号引入 MAE,实现 “局部重建 + 全局分类” 双目标优化
  • 基于 “图像空间冗余” 的高效分类设计:仅用可见补丁子集
  • 全局池化替代 “类令牌”,优化全局特征表征
  • 轻量级解码器与灵活损失平衡,兼顾性能与效率

贡献

  • 据我们所知,这是首个研究有监督预训练是否能对MAE有所助益的工作。这一方向在直觉上是合理的,因为黄金标签能让MAE知晓自己正在重构的是什么概念
  • 所提出的SupMAE仅使用可见补丁的一个子集进行分类,而非使用所有补丁的标准有监督预训练。这种设计还使SupMAE具有更高的样本效率:我们可以在训练期间利用所有输入标记,而不仅仅是被掩码的子集
  • 通过实证实验,我们证明SupMAE具有更高的训练效率,并且它还能学习到更稳健的特征和更具可迁移性的特征

思路模块

实验核心目标

1.补充全局特征学习:通过监督分类分支,利用 “黄金标签” 让模型明确重构对象的语义概念,弥补 MAE 全局理解不足的缺陷;
2.提升训练效率:设计 “仅用可见补丁分类” 的机制,减少计算量,在更低预训练 epoch 和更少计算成本下达到 MAE 同等精度;
3.增强鲁棒性与迁移性:验证模型在图像变体鲁棒性(如噪声、对抗样本)和下游任务迁移(少样本分类、语义分割)上的优势,超越 MAE 与标准监督预训练方法。

预训练策略

双目标协同 + 高效计算设计

在这里插入图片描述

图1:SupMAE方法示意图。所提出的SupMAE在MAE的基础上进行了扩展,增加了一个用于有监督分类的分支,与现有的重建目标并行。在预训练阶段,只有一部分可见的图像块会由ViT编码器处理。它们对应的图像块特征被用于(1)重建缺失的像素和(2)进行类别分类。在微调阶段,编码器被应用于未损坏的图像以完成识别任务

1. 双目标并行优化:重构损失 + 分类损失

  • 重构目标(继承 MAE):针对掩码补丁(约 75%),学习局部像素级特征,保留 MAE 对细粒度细节的学习能力;
  • 监督分类目标(新增):针对可见补丁(约 25%),通过全局池化提取图像级特征,结合黄金标签学习全局语义,解决 MAE“只看局部、不见整体” 的问题;

二者的协同优势在于:重构目标利用掩码补丁的 “自监督信号” 学习低维特征,分类目标利用 “监督信号” 引导高维语义,且能利用100% 补丁计算损失(重构算掩码补丁,分类算可见补丁),而 MAE 仅用 30% 掩码补丁计算损失,样本效率更高。

2. 可见补丁子集分类:降低计算成本

对比优势:标准监督预训练(如 DeiT、ViT)需使用全部图像补丁(或 class token)计算分类损失,计算量庞大;而 SupMAE 仅用可见补丁子集(约 25%)进行分类,核心依据是 “图像存在空间冗余 —— 人类仅看部分补丁即可识别图像”,从而使 SupMAE 的单 epoch 计算成本仅为 MoCov3 的 30%(表 1),预训练 400 epoch 即可达到 MAE 1600 epoch 的 ImageNet-1K 精度(83.6%),计算效率提升 3 倍。

3. 掩码作为强正则化:减少数据增强依赖

在原论文中,作者团队提到,SupMAE 的随机掩码(75% 掩码率)在每次迭代中生成不同的 “局部观测样本”,天然具备数据增强效果,因此无需依赖 DeiT 等方法的复杂数据增强(如 Color Jitter、RandAug)

4. 损失权重平衡:避免目标偏移

总损失采用加权求和:

L = λ r e c L r e c + λ c l s L c l s \mathcal{L} = \lambda_{rec}\mathcal{L}_{rec} + \lambda_{cls}\mathcal{L}_{cls} L=λrecLrec+λclsLcls

其中 λ r e c = 1.0 \lambda_{rec} = 1.0 λrec=1.0 λ c l s = 0.01 \lambda_{cls} = 0.01 λcls=0.01(表 5d)

原因分析:若分类损失权重过大,模型会退化为 “掩码版标准监督预训练”,丢失 MAE 的局部特征学习能力;若权重过小,全局语义引导不足。实验证明,小权重分类损失(0.01)能最佳平衡双目标

SupMAE方法实现

核心组件:编码器、重构解码器、分类头

  • 编码器:ViT-B/16(默认),无额外修改
  • 重构解码器:轻量级 Transformer(默认 1 层),位置嵌入 + 线性投影层
  • 分类头:2 层 MLP(BatchNorm+ReLU 激活)

方法步骤实现

1:图像分块与掩码

  • 输入图像 x ∈ R H × W × C x \in \mathbb{R}^{H \times W \times C} xRH×W×C (如ImageNet的224×224×3) 被划分为非重叠补丁 x p ∈ R N × ( P 2 ⋅ C ) x_p \in \mathbb{R}^{N \times (P^2 \cdot C)} xpRN×(P2C),其中 P = 16 P = 16 P=16 (补丁大小)、 N = H × W / P 2 = 196 N = H \times W / P^2 = 196 N=H×W/P2=196 (总补丁数);
  • 按75%掩码率随机划分补丁:可见补丁 x v x^v xv (约49个)、掩码补丁 x m x^m xm (约147个),无重叠且覆盖全图

2:可见补丁编码

  • 可见补丁 x v x^v xv通过“线性投影层(PatchEmbed)”转换为嵌入向量,叠加位置嵌入(学习图像空间信息);
  • 输入ViT编码器,经过多层自注意力与前馈网络,输出局部补丁特征 q v ∈ R K × D q^v \in \mathbb{R}^{K \times D} qvRK×D K K K为可见补丁数, D D D为特征维度,如ViT-B的768)

3:重构分支计算

  • 补全掩码token:由于 q v q^v qv仅对应可见补丁,需添加共享学习的掩码token(标记缺失位置),形成完整的特征序列(长度 N N N);
  • 解码与像素重构:完整特征序列输入轻量级解码器,输出通过线性投影层映射到“补丁像素空间”(维度 P 2 ⋅ C P^2 \cdot C P2C);
  • 损失计算:采用MSE损失,仅对掩码补丁 x m x^m xm的重构结果计算误差(与MAE一致,避免可见补丁误差干扰)

4:分类分支计算

  • 全局特征提取:对局部特征 q v q^v qv进行平均池化(表5b验证:比ViT的class token更优,因class token在局部补丁上学习不充分),得到全局图像特征 g ∈ R D g \in \mathbb{R}^D gRD
  • 类别预测:全局特征 g g g输入分类头,经过2层MLP与温度缩放( logits / τ \text{logits}/\tau logits/τ),输出类别概率分布;
  • 损失计算:采用交叉熵损失,与黄金标签对比,学习全局语义

核心性能验证

1:ImageNet-1K 预训练方法对比(ViT-B/16)

在这里插入图片描述

表1:与有监督和自监督预训练方法的比较 所有方法均使用ViT-B/16模型。SupMAE表现出极高的效率,仅使用30%的计算资源就能达到与MAE相同的精度

目的:验证 SupMAE 的训练效率与精度平衡能力
结果:SupMAE 效率 - 精度最优平衡:仅用 30% 计算成本达到 MAE 同等精度,超越所有监督方法

2:ImageNet 变体鲁棒性评估

在这里插入图片描述

表2:在鲁棒性基准上的鲁棒性评估

目的:验证 SupMAE 对图像 corruption、语义偏移等扰动的适应性

数据集:

  • IN-Corruption(噪声等)
  • IN-Adversarial(对抗样本)
  • IN-Rendition(语义偏移)
  • IN-Sketch(纹理偏移)

结论:SupMAE全局鲁棒性最优:比 MAE 高 1.8%,比 DeiT 高 4.2%

核心发现:SupMAE 的监督分类分支学习的全局语义,提升了对 “局部扰动不改变全局语义” 场景的适应性(如 IN-Rendition、IN-Sketch)

3:验证 SupMAE 在训练效率与收敛速度上的优势

在这里插入图片描述

图2:不同预训练轮次的性能表现 MAE与SupMAE在不同预训练轮次下的对比。SupMAE效率更高,收敛速度更快

这里对比不同预训练 epoch 下 SupMAE 与 MAE(自监督基线)的 ImageNet-1K 微调精度,从而去验证“提升 MAE 训练效率” 的核心目标

结论:
SupMAE 收敛速度远快,100/200 epoch 精度均高于 MAE;仅需 400 epoch 就达 MAE 1600 epoch 的 83.6% 精度,训练效率显著更高;且 SupMAE 预训练 800 epoch 精度无提升,存在监督预训练的饱和特性。

4: 20 个分类数据集少样本迁移学习(ViT-B/16)

在这里插入图片描述

表3:少样本迁移学习。所有方法均使用相同的ViT-B/16架构。我们报告了在20个图像分类数据集上的线性探测和微调平均分数

目的:
验证 SupMAE 特征的迁移能力(少样本场景)

结论:
微调后 SupMAE 全面超越 MAE,50-shot 下比 MoCo-v3 高 1.4% SupMAE 的全局特征学习解决了 MAE “局部特征无法迁移全局语义” 的问题,端到端微调能进一步适配完整图像,迁移性最优

5:ADE20K 语义分割迁移(UperNet+ViT-B/16)

在这里插入图片描述

表4:在ADE20K上迁移至语义分割
所有方法均使用带有ViT-B/16骨干网络的UperNet

目的:
验证 SupMAE 对密集预测任务(语义分割)的迁移能力

结论:
SupMAE密集任务最优:mAcc 比 MAE 高 0.8%,说明对小众类别分割更准确

消融实验分析

目标:
验证 SupMAE 核心组件的必要性

1.预训练目标

在这里插入图片描述

  • 仅重构(即 MAE):局部特征好,但全局语义差,lin 精度低
  • 仅分类(掩码监督预训练):全局语义有,但局部特征差,ft 精度低
  • 双目标最优:重构补局部,分类补全局,两者协同提升精度

2.特征聚合方式

在这里插入图片描述

  • Class Token 依赖全图信息,仅用 25% 可见补丁训练不充分
  • 全局池化更优:对局部补丁子集的特征聚合更有效,适配 SupMAE 设计

3.数据增强

在这里插入图片描述

  • RandCrop(随机裁剪):从表中看,随机掩码已提供强正则化,无需额外数据增强
  • RandCrop+CJit(颜色抖动):加颜色抖动无提升,甚至 ft 精度略降,验证 SupMAE 对数据增强的低依赖

4.解码器深度(Transformer 层数)

在这里插入图片描述

  • 微调精度与层数无关:解码器仅服务重构,编码器特征已足够适配下游任务
  • 线性探测精度随层数升高:更深解码器让重构更精细,编码器特征更通用
  • 轻量化解码器可行:1 层解码器即可满足需求,降低计算成本

5.分类头 MLP 层数

在这里插入图片描述

  • 1 层线性可分,适合线性探测,但特征抽象度低
  • 2 层最优:平衡特征抽象度与适配性,适配双目标学习的特征
  • 3 层过拟合:分类头复杂度过高,泛化性下降

总结

当前研究的局限性

SupMAE 虽在效率、鲁棒性、迁移性上超越基线方法,但是我们从论文实验与分析中仍暴露以下关键局限:

  1. 监督预训练的 “epoch 饱和” 问题显著
  2. 组件设计的适配性与通用性不足
  3. 模型架构适配性单一:实验主要基于 ViT-B/16 验证,仅在 SimMIM+Swin-Base 上做了简单兼容性测试(表 7,精度提升 0.2%),未深入探索在更大模型(如 ViT-L/H)、 hierarchical 架构(如 Swin-V2、ConvNeXt)上的表现,难以验证方法对不同视觉 Transformer 的普适性

未来研究方向

1.针对监督预训练的饱和问题,可设计自适应训练机制:
预训练前期用高掩码率(75%)强化局部特征学习,后期逐步降低掩码率(如 50%→30%),同时动态调整,引导模型在后期更聚焦全局语义,避免早停;
2.优化组件协同,未来可设计 “多任务共享解码器”—— 既支持掩码补丁重构,又能通过注意力机制增强编码器输出的全局特征,同步提升线性探测与微调性能,避免 “深度与成本” 的矛盾;
3.拓展适用场景,覆盖特殊任务与数据:在医学影像(如 CT、病理切片)、遥感图像(如 EuroSAT 扩展集)上测试,调整掩码率(如医学影像语义密度高,可降至 50% 掩码率)与特征聚合方式(如用注意力池化替代平均池化),验证 SupMAE 在非通用图像上的性能

结语

本文提出 Supervised MAE(SupMAE),通过在自监督 MAE 基础上新增监督分类分支,将其扩展为全监督预训练框架 —— 利用可见补丁子集学习全局特征(解决 MAE 缺乏全局理解的痛点),同时保留掩码补丁重构以学习局部特征,形成 “重构 + 分类” 双目标协同。
SupMAE 验证了监督信号与自监督 MIM 目标的兼容性,为视觉 Transformer 预训练提供了 “混合监督 - 自监督” 的高效范式,也为多目标预训练研究提供了参考。

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成
ACE-Step

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值