目录
Abstract
在针对高分辨率移动视觉应用时,ViT不如卷积神经网络(CNNs)。
现有的方法(如Swin、PVT)限制了局部窗口内的softmax attention,或降低键/值张量的分辨率,以降低成本,这牺牲了ViT在全局特征提取方面的核心优势
我们提出用线性注意代替softmax attention,同时用深度卷积提高其局部特征提取能力。
1 Introduction
例如,图1(左)比较了COCO数据集上当前基于cnn和基于vit的单阶段检测器
例如,如图1(中间)所示,随着输入分辨率的增加,ViT-Small [19]的计算成本很快就会明显大于ResNet-152的计算成本。
图1(右)显示了MobileNetV2 [22]在城市景观数据集上在不同输入分辨率和宽度倍增器下的性能
例如,将输入分辨率从1024x2048降低到512x1024,城市景观的性能会降低12%(8.5 mIoU)。只有在不扩大模型尺寸而不增加分辨率的情况下,才无法恢复这种性能损失,即使mac也高了3.6倍。
除了降低分辨率外,另一种具有代表性的方法是通过将软注意的范围限制在固定大小的局部窗口[4,24]内或降低键/值张量[5,9]的维数来限制软注意。然而,它损害了ViT的非局部注意能力,降低了整体接受域(ViT最重要的优点),使ViT与大核cnn的区别较小
我们建议用线性注意代替softmax attention
然而,直接应用线性注意也存在缺陷。以往的研究表明,线性注意和软最大注意之间存在显著的表现差距
一个关键的区别是,线性注意缺乏非线性注意得分归一化方案。它使得线性注意力不能有效地将其注意力分布集中在局部模式产生的高注意力分数上(图2,中间,图6),从而削弱了其局部特征提取能力。我们建议通过在每个FFN层中插入一个额外的深度卷积来增强线性注意因此,我们不需要依赖线性注意来提取局部特征,避免了其在捕获局部特征方面的弱点,并利用了其在捕获全局特征方面的优势。
contributions
我们是第一个研究高分辨率低计算视觉识别使用ViT架构。表明线性注意是软极大度注意的有力替代方法,并且对硬件更友好,我们提出增强线性注意来解决线性注意的局部特征提取的局限性
3 Method
3.2 EffificientViT
如果没有在软注意中使用非线性得分归一化,线性注意很难像软注意一样集中其注意力分布
我们的思想是利用卷积来增强线性注意,这在局部特征提取中是非常有效的。这样,我们就不需要依赖线性注意来捕获局部特征,而可以专注于全局特征提取。
与之前的方法[4,6]不同,我们在效率[4,6]中不使用相对位置偏差。虽然相对位置偏差可以提高性能,但它使模型的分辨率变化很脆弱,消除相对位置偏差可以使效率对输入分辨率更加灵活
4 Experiments
但通过深度卷积增强模型后,线性注意的精度得到了显著提高。相比之下,软度注意的准确性变化不大。