论文解析：一文弄懂Vision Transformer!

最新推荐文章于 2025-10-27 22:34:52 发布

原创最新推荐文章于 2025-10-27 22:34:52 发布 · 1.1k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #计算机视觉 #backbone

深度学习-计算机视觉同时被 2 个专栏收录

8 篇文章

订阅专栏

论文精读系列

8 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一、相关资源

论文题目：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

链接：[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

参考代码：GitHub - google-research/vision_transformer

二、Motivation

背景：transformer已经成为NLP领域的主流方法，BERT提出来的训练transformer模型方法也成为了主流方法；在计算机视觉领域，卷积神经网络占据主导地位。与此同时，自注意力机制在视觉领域早就有所应用，也有了用注意力去完全取代卷积操作进行图像任务处理。

受Transformer在NLP中成功应用的启发，尝试将标准Transformer直接应用于图像，并尽可能少地进行修改，目的是想证明在大规模数据集上可以使用跟NLP一样的处理逻辑来处理视觉问题。

三、技术细节

方法原则：强调按照传统的transformer迁移到vision领域，目的是证明transformer可以原封不动在vision使用。因为BERT当时已经作为训练transformer的主流方法，所以作者在这里很多技术都借鉴了BERT。

1.借鉴BERT，使用CLS

为了分类，借鉴BERT里面的token，这里的具体是怎么应用的token操作可以等看完BERT论文再来写

2.位置编码(Position embeddings)

跟BERT用到的位置编码是一样的，使用1-D位置编码，后序作者还用实验证明了使用1-D和2-D对于ViT的效果是一样的。

这里用公式描述了ViT进行embedding的过程：

把卷积过程得到token+位置编码作为transformer输入(z0)放入encoder，然后描述了多头自注意力(zl’)和transformer block输出(zl)，经过l层循环后，把最后一层输出的第一个位置zL0作为整体图像的特征，进而做图像的分类任务。

3.归纳偏置(Inductive bias)

ViT比CNN少很多的归纳偏置条件，因此ViT模型跟同等大小的ResNet网络相比要弱一点，“归纳偏置”其实就是一种先验知识，指的一种提前做好的假设。

归纳偏置有两种：

①locality：卷积神经网络是用滑动窗口去卷积处理，假设图片上相邻的区域会有相似的特征。

②平移等变性translation equivariance：其本质可以表示为f(g(x))=g(f(x))，f可以理解为卷积操作，g可以是平移操作。

然而当这种自注意力机制应用到大规模数据集上时，其效果比先验知识CNN的效果会好，后面就讲述了在大规模数据集上的准确率和稳健性。

4.模型处理高分辨率图像方法(2D插值法)

这里采用2D插值方法来实现大分辨率图像分割后位置信息与预训练网络位置信息的适应问题，“其实是一种临时解决方案，算是ViT在微调部分局限的地方”，这里是ViT唯一使用2D的归纳偏置方法。

四、网络结构及工作流程

1.网络结构

(1)Embedding层

图像分割：将输入图像分割成多个固定大小的patches（例如16x16像素）。

线性嵌入：每个patch通过线性层转换为固定长度的向量（即patch embeddings）。

位置嵌入：由于Transformer模型本身不具有处理序列位置信息的能力，因此ViT引入了可学习的位置嵌入来弥补这一缺陷。位置嵌入与patch嵌入相加，使模型能够捕捉到图像中不同位置的信息。

(2)Transformer Encoder

编码器层：由多个堆叠的编码器层组成，每个编码器层包含自注意力机制和前馈神经网络。

自注意力机制：能够捕捉到输入序列中所有位置之间的依赖关系，从而提取图像中的全局信息。

前馈神经网络：进一步增强模型的表示能力。

(3)MLP Head

输出层：通常由一个全连接层和一个softmax层组成，用于对输入的表示向量进行分类或回归。

2.工作流程

①将输入图像（224×224×3）分割成多个固定大小的patches（16×16=196块，每块14×14×3=768【1-D处理】），并通过线性嵌入层转换为patch embeddings(X·E=(196×768) × (768×768)=196×768)。

②为每个patch embeddings添加位置嵌入((196+1)×768=197×768)，以保留位置信息。

③将包含位置信息的patch embeddings输入到Transformer Encoder中（输入197×768，输出也是197×768），通过多层堆叠的编码器层处理，提取图像中的全局信息。

④将Transformer Encoder的输出输入到MLP Head中，得到最终的预测结果。

五、实验过程

1.不同网络结构在数据集上表现

左图：最重要的take home message（论文所表达的最核心、最重要的观点或结论），最想让读者知道的是在各种数据集上的对比效果图，其中BiT是各种大小的ResNet，所以这里用区间来表示了。

右图：在同一个数据集（JFT），分别抽取不同数量的数据（10M，30M，100M，300M），避免不同数据集之间的gap，同时不适用额外的regularization，超参数保证相同。linear evaluation是指直接把预训练模型当做特征提取器，不fine-tune，拿提取到的特征直接做logistic regression。

few-shot是指在evaluation的时候，每一类只sample五张图片。可以看到当数据集很小时，CNN预训练模型表现更好，证明了CNN归纳偏置的有效性，但是当数据集足够大时，归纳偏置和Transformer比较就失去了优势，甚至没有归纳偏置，直接从数据learn patterns会更有效。同时细心观察会发现即使预训练的数据集很大，最后ViT的性能提升也不是很明显，因此如何使用ViT来做这种小样本学习任务，是一个有待继续研究的方向