研究背景
对于各种视觉任务来说,例如图像分类、目标检测、语义分割等,一个先进的backbone往往能够显著地提高性能。由于Transformer自身强大的建模能力,自Vit将Transformer引入CV以来,基于Transformer的backbone,如swin-Transformer等迅速占据了各种任务的排行榜。
存在的问题
CNN
卷积运算采用静态权值,适应性差。
Transformer
- self-attention起初是为1维的NLP任务设计的,将图片的二维结构视为一维序列,对图像的关键二维结构造成了破坏;
- 由于其二次计算和内存开销,它也难以处理高分辨率图像;
- self-attention只考虑了空间维度的适应性,忽略了通道维度的适应性。
解决思路
回顾 Depth-wise Separable Convolution
depthwise separable convolution,由depthwise(DW) convolution和pointwise(PW) convolution两个部分结合起来,目的是降低网络参数量和计算量。


本文介绍了一种新的视觉注意力网络(VAN),该网络结合了卷积神经网络(CNN)和Vision Transformer(ViT)的优点,以解决现有模型在处理图像任务时存在的局限性。VAN利用大型内核注意力机制捕获长距离依赖关系,同时保持较低的计算复杂度。此外,还讨论了VAN在网络结构改进、自监督学习和迁移学习方面的潜力。
最低0.47元/天 解锁文章
4470

被折叠的 条评论
为什么被折叠?



