MViT:性能杠杠的多尺度ViT | ICCV 2021

论文提出了多尺度视觉Transformer模型MViT,将多尺度层级特征的基本概念与Transformer模型联系起来,在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中,MViT均优于单尺度的ViT

来源:晓飞的算法工程笔记 公众号

论文: Multiscale Vision Transformers

Introduction


  论文提出了用于视频和图像识别的多尺度ViT(MViT),将FPN的多尺度层级特征结构与Transformer联系起来。MViT包含几个不同分辨率和通道数的stage,从小通道的输入分辨率开始,逐层地扩大通道数以及降低分辨率,形成多尺度的特征金字塔。

  在视频识别任务上,不使用任何外部预训练数据,MViT比视频Transformer模型有显着的性能提升。而在ImageNet图像分类任务上,简单地删除一些时间相关的通道后,MViT比用于图像识别的单尺度ViT的显着增益。

Multiscale Vision Transformer (MViT)


  通用多尺度Transformer架构的核心在于多stage的设计,每个stage由多个具有特定分辨率和通道数的Transformer block组成。多尺度Transformers逐步扩大通道容量,同时逐步池化从输入到输出的分辨率。

Multi Head Pooling Attention

  多头池化注意(MHPA)是一种自注意操作,可以在Transformer block中实现分辨率灵活的建模,使得多尺度Transformer可在逐渐变化的分辨率下运行。与通道和分辨率固定的原始多头注意(MHA)操作相比,MHPA池化通过降低张量的分辨率来缩减输入的整体序列长度。

  对于序列长度为 L L L D D D 维输入张量 X X X X ∈ R L × D X \in \mathbb{R}^{L\times D} XRL×D,根据MHA的定义先通过线性运算将输入 X X X映射为Query张量 Q ^ ∈ R L × D \hat{Q} \in \mathbb{R}^{L\times D} Q^RL×DKey张量 K ^ ∈ R L × D \hat{K} \in \mathbb{R}^{L\times D} K^RL×DValue张量 V ^ ∈ R L × D \hat{V} \in \mathbb{R}^{L\times D} V^RL×D

  然后通过池化操作 P \mathcal{P} P将上述张量缩减到特定长度。

  • Pooling Operator

  在进行计算之前,中间张量 Q ^ \hat{Q} Q^ K ^ \hat{K} K^ V ^ \hat{V} V^需要经过池化运算 P ( ⋅ ; Θ ) \mathcal{P}(·; \Theta) P(⋅;Θ)的池化,这是的MHPAMViT的基石。

  运算符 P ( ⋅ ; Θ ) \mathcal{P}(·; \Theta) P(⋅;Θ)沿每个通道对输入张量执行池化核计算。将 Θ \Theta Θ分解为 Θ : = ( k , s , p ) \Theta := (k, s, p) Θ:=(k,s,p),运算符使用维度 k k k k T × k H × k W k_T\times k_H\times k_W kT×kH×kW、步幅 s s s s T × s H × s W s_T\times s_H \times s_W sT×sH×sW

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值