#今日论文推荐# BeiT v2 来袭 | BeiT升级,全面超越 MAE,实现 Vision Transformer 微调自由

BEITV2是BEiT的升级版,通过引入语义丰富的视觉tokenizer和向量量化知识蒸馏,将Masked Image Modeling (MIM)从像素级提升到语义级。这种方法在预训练视觉Transformer时,使用离散的code作为监督信号,提高了模型的表示能力。在ImageNet-1K和ADE20K等任务上,BEITV2表现出优越的性能,解决了Transformer的注释饥饿问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#今日论文推荐# BeiT v2 来袭 | BeiT升级,全面超越 MAE,实现 Vision Transformer 微调自由

Masked image modeling 通过恢复损坏的图像块在自监督表示学习中展示了令人印象深刻的结果。然而,大多数方法仍然对 low-level 图像像素进行操作,这阻碍了对表示模型的 high-level 语义的利用。
在这项研究中,作者建议使用语义丰富的 visual tokenizer 作为 Mask 预测的重建目标,为将 MIM 从像素级提升到语义级提供了一种系统的方法。
具体来说,引入向量量化知识蒸馏来训练 tokenizer,它将连续的语义空间离散化为 compact codes。然后,通过预测 masked image patches 的原始 visual tokenizer 来预训练 Vision Transformers 。此外,作者鼓励模型将patches信息显式聚合到全局图像表示中,这有助于线性预测。
图像分类和语义分割的实验表明,本文的方法优于所有比较的 MIM 方法。在 ImageNet-1K(224 大小)上,base-size BEIT V2 在微调时达到 85.5% 的 top-1 精度,在线性预测时达到 80.1% 的 top-1 精度。large-size BEIT V2 在 ImageNet-1K(224 大小)微调上获得 87.3% 的 top-1 准确率,在 ADE20K 上获得 56.7% 的 mIoU 用于语义分割。

Masked image modeling 在学习视觉表示方面显示出令人印象深刻的结果,这极大地缓解了 Vision Transformer 的注释饥饿问题。给定一张图像,这些方法通常首先通过mask一些 patches 来破坏原始图像,相关任务是恢复原始图像。以开创性工作 BEiT 为例,每张图像在预训练期间都有2个视图,即图像 patches 和 visual tokenizer。原始图像首先被tokenizer为离散 token。随机采样的图像 patches 在被馈送到 Vision Transformer 之前被 Masked。预训练的目标是根据损坏的图像 patches 恢复原始 visual tokenizer。在预训练视觉编码器后,可以通过附加轻量级任务层直接在各种下游任务上微调模型。

在 mask-then-predict 框架下,与之前工作的主要区别在于重建目标,例如 visual tokenizer、原始像素和手工制作的 HOG 特征。然而,恢复low-level监督往往会浪费建模能力来预训练高频细节和短程依赖关系。例如,当掩盖戴在男人头上的“帽子”时,更喜欢模型在给定整个上下文的情况下学习被掩盖的“帽子”的高级概念,而不是在像素级细节上苦苦挣扎。相比之下,语言建模中的掩码词通常被认为具有比像素更多的语义。这促使通过在预训练期间利用语义感知监督来挖掘 MIM 的潜力。

在这项工作中,作者引入了一种自监督的视觉表示模型 BEIT V2,旨在通过学习语义感知的 visual tokenizer 来改进 BEIT 预训练。具体来说,提出了向量量化知识蒸馏(VQ-KD)算法来离散化语义空间。VQ-KD 编码器首先根据可学习的 codebook 将输入图像转换为离散token。然后解码器学习重建由教师模型编码的语义特征,以离散token为条件。在训练 VQ-KD 后,其编码器用作 BEIT 预训练的 visual tokenizer,其中离散 code 用作监督信号。

此外,作者建议通过明确鼓励 CLS token 聚合所有 patches 来预训练全局图像表示。该机制解决了 Masked image modeling 仅预训练 patch-level 表示的问题。结果,在聚合全局表示的帮助下,线性预测的性能得到了提高。

论文题目:BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
详细解读:https://www.aminer.cn/research_report/62fd07017cb68b460f058745icon-default.png?t=M666https://www.aminer.cn/research_report/62fd07017cb68b460f058745
AMiner链接:https://www.aminer.cn/?f=cs

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值