目录
3. Multiscale Vision Transformer (MViT)
3.1. Multi Head Pooling Attention
3.2. Multiscale Transformer Networks
3.3. Network instantiation details
论文地址:https://arxiv.org/abs/2104.11227
代码地址:https://github.com/facebookresearch/SlowFast
个人感觉有两个贡献点:
- 利用 pooling 操作实现下采样,pooling 本身就是那种模仿视觉的算子,用的比较巧妙,让我引发了一些关于多尺度的思考,还节省了参数量
- 不同的 stage 使用不同核大小的 pooling ,这些 stage 连起来就像多尺度金字塔(作者那么说的)。
Abstract
我们提出了 Multiscale Vision Transformers(MViT)用于视频和图像识别。MViT 是多尺度特征层次结构和Transformer的结合。MViT 有几个通道分辨率尺度块(channel-resoluation scale stages)。从输入分辨率和小通道维度开始,这些stages扩展通道容量,同时降低空间分辨率。这创建了一个多尺度特征金字塔,早些的层在高空间分辨率下运行以模拟简单的低级视觉信息,而更深层在空间粗糙但复杂的高维特征上运行。我们评估了这种MViT,用于各种视频识别任务中密集型任务,它优于依赖大规模外部预训练并且在计算和参数比我们高出 5-10 倍的 ViT。我们删除了时间维度并将我们的模型应用于图像分类,它也优于先前 ViT 的表现。
简单概括:MViT引入了多尺度特征金字塔结构,解决了视频识别任务中目标密集型任务。而且参数量与推理速度要比ViT少很多,在图片分类任务上的表现也比ViT的要好。
1. Introduction
我们从计算机视觉神经网络模型的知识史开始。基于对猫和猴子视觉皮层的研究,Hubel 和 Wiesel [55] 发明了视觉通路的层次模型,其中神经元在较低区域(例如 V1)对定向边缘和条形等特征做出反应,而在较高区域则对更具体刺激做出反应。Fukushima 提出了 Neocognitron [32],这是一种由 Hubel 和 Wiesel 的层次结构明确驱动的模式识别神经网络架构。他的模型具有简单单元和复杂单元的交替层,因此包含了下采样,平移不变性和卷积结构。 LeCun 等人。 [65] 采取了使用反向传播来训练该网络的权重。但是已经建立了视觉处理层次结构的主要方面:(i)随着处理层次的增加,空间分辨率降低(ii)增加了不同的通道数量,这些通道对应更多特殊的特征。
在并行开发中,计算机视觉社区开发了多尺度处理,有时称为“金字塔”策略,Rosenfeld 和 Thurston [85]、Burt 和 Adelson [8]、Koenderink [61] 等都是关键论文。有两个动机(i)通过在较低分辨率下工作来减少计算需求,以及(ii)在较低分辨率下更好地理解“上下文”,然后可以指导高分辨率下的处理。
Transformer [98] 架构允许学习在集合上定义的任意函数,并且在语言理解 [26] 和机器翻译 [7] 等序列任务中取得了可扩展的成功。从根本上说,transformer 使用具有两个基本操作的块。首先,是用于建模元素间关系的注意力操作 [4]。其次,是多层感知器 (MLP),它对元素内的关系进行建模。将这些操作与归一化 [2] 和残差连接 [44] 交织在一起,可以让transformers泛化到各种各样的任务。
最近,transformer 已应用于关键的计算机视觉任务,例如图像分类。本着架构普适主义的精神,vision transformer [25, 95] 在各种数据上或计算状态上都媲美卷积模型。通过只有第一层使用 2D 卷积调整输入,然后是一堆 transformer blocks,vit 旨在展示 transformer 架构的强大功能,使用很少的归纳偏置。
在本文中,我们的目的是将多尺度特征层次结构与 transformer 模型联系起来。我们假设分辨率和通道调整的基本视觉原理对于跨各种视觉识别任务的 transformer 模型可能是有益的。
我们提出MViT,一种用于对图像和视频等视觉数据进行建模的 transformer 架构。考虑如图 1 所示的输入图像。与在整个网络中保持恒定通道容量和分辨率的传统 transformers 不同,MViT具有多个通道分辨率“尺度”阶段。这在 transformer 网络内部创建了一个多尺度的特征激活金字塔,有效地将 transformers 的原理与多尺度特征层次结构联系起来。
我们的概念性想法为 ViT 模型提供了有效的设计优势。由于轻量级通道容量,我们架构的前面的层可以在高空间分辨率下运行以模拟简单的低级视觉信息。反过来,更深层可以有效地关注空间粗糙但复杂的高级特征来建模视觉语义。我们的 MViT 的可以很好的处理极其稠密的视觉信号,这种现象对于视频中捕获的时空视觉信号更为明显。
我们设计的一个值得注意的好处是视频多尺度模型中存在强烈的隐式时间偏差(implicit temporal bias)。我们表明,在自然视频上训练的 ViT [25] 在使用随机帧的视频上进行测试时不会出现性能衰减。这表明这些模型没有有效地使用时间信息,而是严重依赖图像特征。相比之下,当在打乱的帧上测试我们的 MViT 模型时,我们观察到显着的精度衰减,表明对时间信息的大量使用。
我们在本文中的重点是视频识别,我们为视频任务设计和评估 MViT(Kinetics [59,10]、Charades [86]、SSv2 [38] 和 AVA [39])。与同时期的 ViTs [78,6,1] 相比,MViT 提供了显着的性能增益,无需任何外部预训练数据。
在图 A.4 中,我们展示了当改变 MViT 中使用的时间片段数量时,视频推理的计算/准确性权衡。纵轴显示 Kinetics-400 的准确性,横轴显示不同模型、MViT 和并发 ViT [25] 视频变体的 FLOPs 的总体推理成本:VTN [78]、TimeSformer [6]、ViViT [1]。为了达到与 MViT 相似的精度水平,这些模型需要更多的计算和参数(例如,ViViT-L [1] 具有 6.8 倍更高的 FLOPs 和 8.5 倍更多的参数,在相同的精度下,§A.1 中有更多分析)并且需要大 -在 ImageNet-21K(包含比 Kinetics-400 多 60 倍的标签)上扩展外部预训练。
我们进一步将我们的架构应用于 ImageNet [21] 上的图像分类任务,通过简单地删除通时间维度,并显示出比用于图像识别的单尺度 ViTs 的效果更好。
2. Related Work
卷积网络(ConvNets)。结合下采样、移位不变性和共享权重,ConvNets 是计算机视觉任务的事实上的标准主干。
&nb

提出了一种新的多尺度视觉变压器MViT,结合多尺度特征层次结构和Transformer,适用于视频和图像识别任务。MViT通过多通道分辨率尺度阶段,逐步扩展通道容量并降低空间分辨率,创建了一个多尺度特征金字塔。实验表明,MViT在多种任务上超越了ViT,尤其是在视频识别任务上,无需大规模外部预训练。


最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



