#今日论文推荐# BeiT v2 来袭 | BeiT升级,全面超越 MAE,实现 Vision Transformer 微调自由
Masked image modeling
通过恢复损坏的图像块在自监督表示学习中展示了令人印象深刻的结果。然而,大多数方法仍然对 low-level 图像像素进行操作,这阻碍了对表示模型的 high-level
语义的利用。
在这项研究中,作者建议使用语义丰富的 visual tokenizer
作为 Mask
预测的重建目标,为将 MIM
从像素级提升到语义级提供了一种系统的方法。
具体来说,引入向量量化知识蒸馏来训练 tokenizer
,它将连续的语义空间离散化为 compact codes
。然后,通过预测 masked image patches
的原始 visual tokenizer
来预训练 Vision Transformers
。此外,作者鼓励模型将patches
信息显式聚合到全局图像表示中,这有助于线性预测。
图像分类和语义分割的实验表明,本文的方法优于所有比较的 MIM
方法。在 ImageNet-1K
(224 大小)上,base-size BEIT V2
在微调时达到 85.5% 的 top-1 精度,在线性预测时达到 80.1% 的 top-1 精度。large-size BEIT V2
在 ImageNet-1K
(224 大小)微调上获得 87.3% 的 top-1 准确率,在 ADE20K
上获得 56.7% 的 mIoU 用于语义分割。
Masked image modeling
在学习视觉表示方面显示出令人印象深刻的结果,这极大地缓解了 Vision Transformer
的注释饥饿问题。给定一张图像,这些方法通常首先通过mask
一些 patches
来破坏原始图像,相关任务是恢复原始图像。以开创性工作 BEiT
为例,每张图像在预训练期间都有2个视图,即图像 patches
和 visual tokenizer
。原始图像首先被tokenizer
为离散 token
。随机采样的图像 patches
在被馈送到 Vision Transformer
之前被 Masked
。预训练的目标是根据损坏的图像 patches
恢复原始 visual tokenizer
。在预训练视觉编码器后,可以通过附加轻量级任务层直接在各种下游任务上微调模型。
在 mask-then-predict
框架下,与之前工作的主要区别在于重建目标,例如 visual tokenizer
、原始像素和手工制作的 HOG
特征。然而,恢复low-level
监督往往会浪费建模能力来预训练高频细节和短程依赖关系。例如,当掩盖戴在男人头上的“帽子”时,更喜欢模型在给定整个上下文的情况下学习被掩盖的“帽子”的高级概念,而不是在像素级细节上苦苦挣扎。相比之下,语言建模中的掩码词通常被认为具有比像素更多的语义。这促使通过在预训练期间利用语义感知监督来挖掘 MIM
的潜力。
在这项工作中,作者引入了一种自监督的视觉表示模型 BEIT V2
,旨在通过学习语义感知的 visual tokenizer
来改进 BEIT
预训练。具体来说,提出了向量量化知识蒸馏(VQ-KD
)算法来离散化语义空间。VQ-KD
编码器首先根据可学习的 codebook
将输入图像转换为离散token
。然后解码器学习重建由教师模型编码的语义特征,以离散token
为条件。在训练 VQ-KD
后,其编码器用作 BEIT
预训练的 visual tokenizer
,其中离散 code
用作监督信号。
此外,作者建议通过明确鼓励 CLS token
聚合所有 patches
来预训练全局图像表示。该机制解决了 Masked image modeling
仅预训练 patch-level
表示的问题。结果,在聚合全局表示的帮助下,线性预测的性能得到了提高。
论文题目:BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
详细解读:https://www.aminer.cn/research_report/62fd07017cb68b460f058745https://www.aminer.cn/research_report/62fd07017cb68b460f058745
AMiner链接:https://www.aminer.cn/?f=cs