EfficientViT: Enhanced Linear Attention forHigh-Resolution Low-Computation Visual Recognition

本文探讨了在高分辨率移动视觉任务中,ViT模型相对于CNN的不足,以及现有优化方法的局限性。研究提出用线性注意力替代softmax注意力,以减少计算成本并保持全局特征提取能力。同时,通过引入深度卷积增强线性注意力,弥补其在局部特征提取上的弱点。实验结果显示,这种方法显著提高了模型在高分辨率输入下的性能,特别是在处理局部特征时。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

Abstract

1 Introduction

3 Method

3.2 EffificientViT

4 Experiments

4.5 Analysis and Discussion


Abstract

在针对高分辨率移动视觉应用时,ViT不如卷积神经网络(CNNs)。

现有的方法(如Swin、PVT)限制了局部窗口内的softmax attention,或降低键/值张量的分辨率,以降低成本,这牺牲了ViT在全局特征提取方面的核心优势

我们提出用线性注意代替softmax attention,同时用深度卷积提高其局部特征提取能力。

1 Introduction

例如,图1(左)比较了COCO数据集上当前基于cnn和基于vit的单阶段检测器

例如,如图1(中间)所示,随着输入分辨率的增加,ViT-Small [19]的计算成本很快就会明显大于ResNet-152的计算成本。

图1(右)显示了MobileNetV2 [22]在城市景观数据集上在不同输入分辨率和宽度倍增器下的性能

例如,将输入分辨率从1024x2048降低到512x1024,城市景观的性能会降低12%(8.5 mIoU)。只有在不扩大模型尺寸而不增加分辨率的情况下,才无法恢复这种性能损失,即使mac也高了3.6倍。

除了降低分辨率外,另一种具有代表性的方法是通过将软注意的范围限制在固定大小的局部窗口[4,24]内或降低键/值张量[5,9]的维数来限制软注意。然而,它损害了ViT的非局部注意能力,降低了整体接受域(ViT最重要的优点),使ViT与大核cnn的区别较小

我们建议用线性注意代替softmax attention

然而,直接应用线性注意也存在缺陷。以往的研究表明,线性注意和软最大注意之间存在显著的表现差距

一个关键的区别是,线性注意缺乏非线性注意得分归一化方案。它使得线性注意力不能有效地将其注意力分布集中在局部模式产生的高注意力分数上(图2,中间,图6),从而削弱了其局部特征提取能力。我们建议通过在每个FFN层中插入一个额外的深度卷积来增强线性注意因此,我们不需要依赖线性注意来提取局部特征,避免了其在捕获局部特征方面的弱点,并利用了其在捕获全局特征方面的优势。

contributions

我们是第一个研究高分辨率低计算视觉识别使用ViT架构。表明线性注意是软极大度注意的有力替代方法,并且对硬件更友好,我们提出增强线性注意来解决线性注意的局部特征提取的局限性

3 Method

3.2 EffificientViT

如果没有在软注意中使用非线性得分归一化,线性注意很难像软注意一样集中其注意力分布

我们的思想是利用卷积来增强线性注意,这在局部特征提取中是非常有效的。这样,我们就不需要依赖线性注意来捕获局部特征,而可以专注于全局特征提取。

与之前的方法[4,6]不同,我们在效率[4,6]中不使用相对位置偏差。虽然相对位置偏差可以提高性能,但它使模型的分辨率变化很脆弱,消除相对位置偏差可以使效率对输入分辨率更加灵活

4 Experiments

但通过深度卷积增强模型后,线性注意的精度得到了显著提高。相比之下,软度注意的准确性变化不大。

4.5 Analysis and Discussion

### 回答1: ESRGAN是增强型超分辨率生成对抗网络的缩写,它是一种深度学习模型,用于将低分辨率图像转换为高分辨率图像。它使用生成对抗网络(GAN)的方法,通过训练生成器和判别器来提高图像的质量。ESRGAN是目前最先进的超分辨率算法之一,它可以生成更加真实、细节更加丰富的高分辨率图像。 ### 回答2: ESRGAN是一种增强超分辨率生成对抗网络(Enhanced Super-Resolution Generative Adversarial Networks)的算法,它采用了图像增强技术和深度学习的方法,可以将低分辨率(LR)的图像转化为高分辨率(HR)的图像。该算法主要的贡献在于,它可以生成更加逼真的HR图像,从而更好地应用于实际的图像处理领域。 该算法主要是由两个子模型组成的,一个是生成模型(Generator),另一个是判别模型(Discriminator)。生成模型通过学习HR图像和相应的LR图像之间的关系,生成更加逼真的HR图像。而判别模型则评估生成模型生成的HR图像是否真实,从而提高生成模型的准确度。 ESRGAN算法采用特殊的损失函数,即感知损失和自适应增强损失,来优化生成模型。感知损失通过VGG网络来计算生成模型和HR图像之间的差异,以此来调整生成模型的参数。自适应增强损失则用于动态调整生成模型的输出图像的细节层次,使生成模型产生更加真实的输出图像。 ESRGAN算法在图像增强领域取得了显著的成果,其生成的HR图像质量要比先前的SRGAN算法有了很大的提升。因此,ESRGAN算法在实际应用中具有广泛的前景,可以为图像处理领域提供更加高效、准确和可靠的方法。 ### 回答3: ESRGAN(Enhanced Super-Resolution Generative Adversarial Networks)是一种利用深度学习算法进行图像超分辨率的技术。其主要思路是基于GAN模型,通过训练一个生成器去从低分辨率图像生成高分辨率图像,同时以高分辨率的真实图片为样本来训练判别器模型,使其能够区分出生成器生成的图像是否为真实高清图像。 ESRGAN相对于传统的超分辨率算法,具有以下几个优点: 1.超分辨率效果更好。传统的超分辨率算法往往是基于一些数学模型进行插值运算,因此往往会出现图像模糊、失真等问题。而ESRGAN能够通过深度学习算法学习到更加准确的纹理特征,从而可以生成更为真实的高清图像。 2.可扩展性更强。ESRGAN的GAN模型可以通过增加网络深度、增加训练数据等方式对模型进行优化,从而提高图像超分辨率效果。 3.针对性更强。ESRGAN可以针对不同种类的图像进行训练,从而能够对各种类型的图像进行超分辨率处理,具有广泛的适用性。 4.易于应用。ESRGAN训练出的模型可以很方便地应用到实际生产环境中,对于需要进行图像超分辨率处理的应用场景具有很大的帮助作用。 虽然ESRGAN在图像超分辨率方面具有较为突出的优势,但其也存在一些缺点和挑战。比如需要大量的高清图像数据用于训练,需要考虑到训练时间和计算资源的问题;还需要解决一些局部纹理复杂的图像超分辨率问题。总之,ESRGAN是一种非常有潜力的图像超分辨率算法,将有助于推动图像处理技术的进一步发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值