MViT：性能杠杠的多尺度ViT | ICCV 2021

原创

已于 2024-07-18 12:26:55 修改 · 1.7k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #神经网络 #深度学习 #网络

于 2024-07-17 13:40:49 首次发布

论文提出了多尺度视觉Transformer模型MViT，将多尺度层级特征的基本概念与Transformer模型联系起来，在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中，MViT均优于单尺度的ViT。

来源：晓飞的算法工程笔记公众号

论文: Multiscale Vision Transformers

论文地址：https://arxiv.org/abs/2104.11227
论文代码：https://github.com/facebookresearch/SlowFast

Introduction

论文提出了用于视频和图像识别的多尺度ViT（MViT），将FPN的多尺度层级特征结构与Transformer联系起来。MViT包含几个不同分辨率和通道数的stage，从小通道的输入分辨率开始，逐层地扩大通道数以及降低分辨率，形成多尺度的特征金字塔。

在视频识别任务上，不使用任何外部预训练数据，MViT比视频Transformer模型有显着的性能提升。而在ImageNet图像分类任务上，简单地删除一些时间相关的通道后，MViT比用于图像识别的单尺度ViT的显着增益。

Multiscale Vision Transformer (MViT)

通用多尺度Transformer架构的核心在于多stage的设计，每个stage由多个具有特定分辨率和通道数的Transformer block组成。多尺度Transformers逐步扩大通道容量，同时逐步池化从输入到输出的分辨率。

Multi Head Pooling Attention

多头池化注意(MHPA)是一种自注意操作，可以在Transformer block中实现分辨率灵活的建模，使得多尺度Transformer可在逐渐变化的分辨率下运行。与通道和分辨率固定的原始多头注意(MHA)操作相比，MHPA池化通过降低张量的分辨率来缩减输入的整体序列长度。

对于序列长度为 $L$ 的 $D$ 维输入张量 $X$ ， $\in \mathbb{R}^{L\times D}$ ，根据MHA的定义先通过线性运算将输入 $X$ 映射为Query张量 $\hat{Q} \in \mathbb{R}^{L\times D}$ ，Key张量 $\hat{K} \in \mathbb{R}^{L\times D}$ 和Value张量 $\hat{V} \in \mathbb{R}^{L\times D}$ 。

然后通过池化操作 $\mathcal{P}$ 将上述张量缩减到特定长度。

Pooling Operator

在进行计算之前，中间张量 $\hat{Q}$ 、 $\hat{K}$ 、 $\hat{V}$ 需要经过池化运算 $\mathcal{P}(·; \Theta)$ 的池化，这是的MHPA和MViT的基石。

运算符 $\mathcal{P}(·; \Theta)$ 沿每个通道对输入张量执行池化核计算。将 $\Theta$ 分解为 $\Theta := (k, s, p)$ ，运算符使用维度 $k$ 为 $k_T\times k_H\times k_W$ 、步幅 $s$ 为 $s_T\times s_H \times s_W$