Visual Attention Network

本文介绍了一种新的视觉注意力网络(VAN),该网络结合了卷积神经网络(CNN)和Vision Transformer(ViT)的优点,以解决现有模型在处理图像任务时存在的局限性。VAN利用大型内核注意力机制捕获长距离依赖关系,同时保持较低的计算复杂度。此外,还讨论了VAN在网络结构改进、自监督学习和迁移学习方面的潜力。

研究背景

对于各种视觉任务来说,例如图像分类、目标检测、语义分割等,一个先进的backbone往往能够显著地提高性能。由于Transformer自身强大的建模能力,自Vit将Transformer引入CV以来,基于Transformer的backbone,如swin-Transformer等迅速占据了各种任务的排行榜。

存在的问题

CNN

卷积运算采用静态权值,适应性差。

Transformer

  1. self-attention起初是为1维的NLP任务设计的,将图片的二维结构视为一维序列,对图像的关键二维结构造成了破坏;
  2. 由于其二次计算和内存开销,它也难以处理高分辨率图像;
  3. self-attention只考虑了空间维度的适应性,忽略了通道维度的适应性。

解决思路

回顾 Depth-wise Separable Convolution

depthwise separable convolution,由depthwise(DW) convolution和pointwise(PW) convolution两个部分结合起来,目的是降低网络参数量和计算量。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值