#今日论文推荐# BeiT v2 来袭 | BeiT升级，全面超越 MAE，实现 Vision Transformer 微调自由

最新推荐文章于 2024-09-04 16:24:43 发布

wwwsxn

最新推荐文章于 2024-09-04 16:24:43 发布

阅读量667

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/62fd07017cb68b460f058745

版权

深度学习专栏收录该内容

716 篇文章

订阅专栏

BEITV2是BEiT的升级版，通过引入语义丰富的视觉tokenizer和向量量化知识蒸馏，将Masked Image Modeling (MIM)从像素级提升到语义级。这种方法在预训练视觉Transformer时，使用离散的code作为监督信号，提高了模型的表示能力。在ImageNet-1K和ADE20K等任务上，BEITV2表现出优越的性能，解决了Transformer的注释饥饿问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#今日论文推荐# BeiT v2 来袭 | BeiT升级，全面超越 MAE，实现 Vision Transformer 微调自由

Masked image modeling 通过恢复损坏的图像块在自监督表示学习中展示了令人印象深刻的结果。然而，大多数方法仍然对 low-level 图像像素进行操作，这阻碍了对表示模型的 high-level 语义的利用。
在这项研究中，作者建议使用语义丰富的 visual tokenizer 作为 Mask 预测的重建目标，为将 MIM 从像素级提升到语义级提供了一种系统的方法。
具体来说，引入向量量化知识蒸馏来训练 tokenizer，它将连续的语义空间离散化为 compact codes。然后，通过预测 masked image patches 的原始 visual tokenizer 来预训练 Vision Transformers 。此外，作者鼓励模型将patches信息显式聚合到全局图像表示中，这有助于线性预测。
图像分类和语义分割的实验表明，本文的方法优于所有比较的 MIM 方法。在 ImageNet-1K（224 大小）上，base-size BEIT V2 在微调时达到 85.5% 的 top-1 精度，在线性预测时达到 80.1% 的 top-1 精度。large-size BEIT V2 在 ImageNet-1K（224 大小）微调上获得 87.3% 的 top-1 准确率，在 ADE20K 上获得 56.7% 的 mIoU 用于语义分割。

Masked image modeling 在学习视觉表示方面显示出令人印象深刻的结果，这极大地缓解了 Vision Transformer 的注释饥饿问题。给定一张图像，这些方法通常首先通过mask一些 patches 来破坏原始图像，相关任务是恢复原始图像。以开创性工作 BEiT 为例，每张图像在预训练期间都有2个视图，即图像 patches 和 visual tokenizer。原始图像首先被tokenizer为离散 token。随机采样的图像 patches 在被馈送到 Vision Transformer 之前被 Masked。预训练的目标是根据损坏的图像 patches 恢复原始 visual tokenizer。在预训练视觉编码器后，可以通过附加轻量级任务层直接在各种下游任务上微调模型。

在 mask-then-predict 框架下，与之前工作的主要区别在于重建目标，例如 visual tokenizer、原始像素和手工制作的 HOG 特征。然而，恢复low-level监督往往会浪费建模能力来预训练高频细节和短程依赖关系。例如，当掩盖戴在男人头上的“帽子”时，更喜欢模型在给定整个上下文的情况下学习被掩盖的“帽子”的高级概念，而不是在像素级细节上苦苦挣扎。相比之下，语言建模中的掩码词通常被认为具有比像素更多的语义。这促使通过在预训练期间利用语义感知监督来挖掘 MIM 的潜力。

在这项工作中，作者引入了一种自监督的视觉表示模型 BEIT V2，旨在通过学习语义感知的 visual tokenizer 来改进 BEIT 预训练。具体来说，提出了向量量化知识蒸馏（VQ-KD）算法来离散化语义空间。VQ-KD 编码器首先根据可学习的 codebook 将输入图像转换为离散token。然后解码器学习重建由教师模型编码的语义特征，以离散token为条件。在训练 VQ-KD 后，其编码器用作 BEIT 预训练的 visual tokenizer，其中离散 code 用作监督信号。