PVT：可用于密集任务backbone的金字塔视觉transformer

最新推荐文章于 2025-10-18 16:15:01 发布

原创

最新推荐文章于 2025-10-18 16:15:01 发布 · 1.8k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #图像识别 #自然语言处理 #pytorch

本文介绍了PVT（Pyramid Vision Transformer）如何改进ViT，通过引入金字塔结构适应高分辨率图像任务，如分割和检测。PVT通过调整网络参数、使用SRA减少计算量，并且能输出不同尺度特征，显著提高在密集任务中的性能和效率。

自从ViT之后，关于vision transformer的研究呈井喷式爆发，从思路上分主要沿着两大个方向，一是提升ViT在图像分类的效果；二就是将ViT应用在其它图像任务中，比如分割和检测任务上，这里介绍的**PVT（Pyramid Vision Transformer）**就属于后者。PVT相比ViT引入了和CNN类似的金字塔结构，使得PVT像CNN那样作为backbone应用在dense prediction任务（分割和检测等）。

在这里插入图片描述

CNN结构常用的是一种金字塔架构，如上图所示，CNN网络一般可以划分为不同的stage，在每个stage开始时，特征图的长和宽均减半，而特征维度（channel）扩宽2倍。这主要有两个方面的考虑，一是采用stride=2的卷积或者池化层对特征降维可以增大感受野，另外也可以减少计算量，但同时空间上的损失用channel维度的增加来弥补。但是ViT本身就是全局感受野，所以ViT就比较简单直接了，直接将输入图像tokens化后就不断堆积相同的transformer encoders，这应用在图像分类上是没有太大的问题。但是如果应用在密集任务上，会遇到问题：一是分割和检测往往需要较大的分辨率输入，当输入图像增大时，ViT的计算量会急剧上升；二是ViT直接采用较大patchs进行token化，如采用16x16大小那么得到的粗粒度特征，对密集任务来说损失较大。这正是PVT想要解决的问题，PVT采用和CNN类似的架构，将网络分成不同的stages，每个stage相比之前的stage特征图的维度是减半的，这意味着tokens数量减少4倍，具体结构如下：

在这里插入图片描述

每个stage的输入都是一个维度 $H_i\times W_i \times C_i$ 的3-D特征图，对于第1个stage，输入就是RGB图像，对于其它stage可以将tokens重新reshape成3-D特征图。在每个stage开始，首先像ViT一样对输入图像进行token化，即进行patch embedding，patch大小均采用2x2大小（第1个stage的patch大小是4x4），这意味着该stage最终得到的特征图维度是减半的，tokens数量对应减少4倍。PVT共4个stage，这和ResNet类似，4个stage得到的特征图相比原图大小分别是1/4，1/8，1/16和1/32。由于不同的stage的tokens数量不一样，所以每个stage采用不同的position embeddings，在patch embed之后加上各自的position embedding，当输入图像大小变化时，position embeddings也可以通过插值来自适应。

不同的stage的tokens数量不同，越靠前的stage的patchs数量越多，我们知道self-attention的计算量与sequence的长度 $N$ 的平方成正比，如果PVT和ViT一样，所有的transformer encoders均采用相同的参数，那么计算量肯定是无法承受的。PVT为了减少计算量，不同的stages采用的网络参数是不同的。PVT不同系列的网络参数设置如下所示，这里 $P$ 为patch的size， $C$ 为特征维度大小， $N$ 为MHA（multi-head attention）的heads数量， $E$ 为FFN的扩展系数，transformer中默认为4。

在这里插入图片描述

可以见到随着stage，特征的维度是逐渐增加的，比如stage1的特征维度只有64，而stage4的特征维度为512，这种设置和常规的CNN网络设置是类似的，所以前面stage的patchs数量虽然大，但是特征维度小，所以计算量也不是太大。不同体量的PVT其差异主要体现在各个stage的transformer encoder的数量差异。

PVT为了进一步减少计算量，将常规的multi-head attention (MHA)用spatial-reduction attention (SRA)来替换。SRA的核心是减少attention层的key和value对的数量，常规的MHA在attention层计算时key和value对的数量为sequence的长度，但是SRA将其降低为原来的 $1/R^2$ 。SRA的具体结构如下所示：

在这里插入图片描述