Visual Attention Network

本文介绍了Visual Attention Network (VAN),它采用大核注意力机制(LKA)来捕捉图像的长距离依赖。LKA通过分解卷积为深度卷积、深度扩张卷积和点卷积,实现高效计算。VAN在图像分类、检测和分割任务中表现出超越Swin Transformer和ConvNeXt的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文阅读
Visual Attention Network Arxiv
有两种常见的方式去捕捉长距离的依赖(long-range dependence):
a)使用自注意力机制。自注意力擅长处理一维的序列结构,如果直接用于处理图像,会忽略图像自身的二维结构信息。由于自注意力自身的复杂度问题,难以用于处理高分辨率图像。自注意力机制仅仅考虑了空间上了自适应性,而忽略了通道维度上的自适应性.
b)使用大核卷积来捕捉长距离依赖。大核卷积的不足在于,大卷积核的参数量和计算量太大,难以接受。
文献提出了一种全新的针对于视觉任务的注意力机制,大核注意力机制(Large-Kernel Attention,LKA),并基于LAK提出一种新的简单且有效的视觉主干网络 Visual Attention Network (VAN)。
(1)大核卷积的分解:与MobileNet有相似之处,MobileNet将标准卷积分为为两部分,一个深度卷积和一个点卷积(1 × 1 Conv)。而LKA将卷积分解为三部分:深度卷积、深度扩张卷积、和点卷积。
在这里插入图片描述
LKA将一个K×K卷积分解为一个k/d×k/d的深度卷积、一个(2d−1)×(2d−1)深度膨胀卷积(扩张率为d)和一个1×1卷积。通过上述分解,可以捕捉到计算成本和参数很小的远程关系。在获得远程关系后,可以生成注意力图。

class LKA(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)
        self.conv_spatial = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)
        self.conv1 = nn.Conv2d(dim, dim, 1)


    def forward(self, x):
        u = x.clone()        
        attn = self.conv0(x)
       
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值