什么是VIT？

最新推荐文章于 2025-06-21 05:44:44 发布

薇酱

最新推荐文章于 2025-06-21 05:44:44 发布

阅读量3.2w

点赞数 23

CC 4.0 BY-SA版权

分类专栏：深度学习经典算法介绍文章标签： transformer 深度学习计算机视觉

本文链接：https://blog.youkuaiyun.com/qq_17246605/article/details/122799541

深度学习同时被 2 个专栏收录

9 篇文章

订阅专栏

经典算法介绍

9 篇文章

订阅专栏

本文探讨了Transformer在视觉领域的应用挑战，包括如何将2D图像转换为1D序列以及如何降低复杂度。介绍了VIT（Vision Transformer）通过切分patch和使用位置编码的方法来处理图像。在前向过程中，VIT将图像切割成patch，经过多层TransformerBlock进行处理。消融实验表明，不同位置编码方式和模型结构对结果影响不大。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

VIT就是Vision Transformer。

1.Transformer在视觉领域上使用的难点：

2.输入序列长度的改进

3.VIT对输入的改进

1.Transformer在视觉领域上使用的难点

在nlp中，输入transformer中的是一个序列，而在视觉领域，需要考虑如何将一个2d图片转化为一个1d的序列，最直观的想法就是将图片中的像素点输入到transformer中，但是这样会有一个问题，因为模型训练中图片的大小是224*224=50176，而正常的bert的序列长度是512，是bert的100倍，这个的复杂度太高了。

2.输入序列长度的改进

如果直接输入像素点复杂度太高的话，就想着如何降低这部分的复杂度

1）使用网络中间的特征图

比如用res50最后一个stage res4 的feature map size只有14*14=196，序列长度是满足预期的

2）孤立自注意力

使用local window而不是整张图，输入的序列长度可以由windows size来控制

3）轴自注意力

将在2d图片上的自注意力操作改为分别在图片的高和宽两个维度上做self-attention，可以大大降低复杂度，但是由于目前硬件没有对这种操作做加速，很难支持大规模的数据量级。

3.VIT对输入的改进

先将图片切分成一个个patch，然后每一个patch作为一个token输入到transformer中，但是由于整个transformer每个token之间都会做attention，所以输入本身并不存在一个顺序问题。但是对于图片而言，每个patch之间是有顺序的，所以类比bert，给每个patch embedding加上一个position embedding（是sum）。同时最终的输出也借鉴了bert，用0和cls来替代整体，这部分对应的embedding就是最终的输出。

4.前向过程：

首先VIT中将224*224的图片切分成了一个个16*16的patch，最终切分出了196个patch，每个patch的大小是16*16*3=768（3是RGB通道个数），同时每个输入都要加上cls，所以整个embedding的输入是197*768。经过layer norm之后，得到的维度不变。经过多头注意力时，如果使用的是base版本的12头自注意力，那么每个头的k,q,v对应的维度将变为768/12=64,最后将12个头的embedding再拼接到一起，就是64*12=768，然后再经过一个layer norm，最后通过一个MLP，这里一般会将维度放大四倍，197*3012，然后再投射回去，变成197*768。