YOLO算法改进Backbone系列之:Groupmixformer(Advancing Vision Transformers with Group-Mix Attention)

摘要:视觉Transformer(ViTs)已被证明可以通过建模长程依赖关系来增强视觉识别,这种建模使用多头自注意力(MHSA),通常将其表述为查询-键-值计算。然而,从查询和键生成的注意力图只能捕获单个粒度上的token到token的相关性。在本文中,我们认为自注意力应该有一个更全面的机制来捕获token和token组(即多个相邻的token)之间的相关性,以获得更高的表示能力。因此,我们提出了一种先进的替代传统自注意力的方法,即Group-Mix Attention(GMA),它可以同时捕获token到token、token到token组以及token组到token组的相关性,并具有各种不同的组大小。为此,GMA将查询、键和值均匀拆分成多个片段,并执行不同的组聚合来生成组代理。注意力图是基于token和组代理的混合计算出来的,并用于重新组合值中的token和组。基于GMA,我们引入了一个强大的主干网络,即GroupMixFormer,它在图像分类、目标检测和语义分割方面取得了最先进的性能,同时参数数量比现有模型更少。例如,GroupMixFormer-L(具有70.3M参数和384*384输入)。在没有外部数据的情况下,在ImageNet-1K上达到了86.2%的Top1准确率,而GroupMixFormer-B(具有45.8M参数)在ADE20K上达到了51.2%的mIoU

注意力图只描述了单个粒度上每个token对之间的相关性(图1(a)),并且将注意力图与Value相乘只是线性地重新组合了各个token。这个框架显然没有考虑到不同粒度上不同token组(即邻域)之间的相关性。本文提出GMA,来缓解广泛使用的Q-K

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值