摘要:视觉Transformer(ViTs)已被证明可以通过建模长程依赖关系来增强视觉识别,这种建模使用多头自注意力(MHSA),通常将其表述为查询-键-值计算。然而,从查询和键生成的注意力图只能捕获单个粒度上的token到token的相关性。在本文中,我们认为自注意力应该有一个更全面的机制来捕获token和token组(即多个相邻的token)之间的相关性,以获得更高的表示能力。因此,我们提出了一种先进的替代传统自注意力的方法,即Group-Mix Attention(GMA),它可以同时捕获token到token、token到token组以及token组到token组的相关性,并具有各种不同的组大小。为此,GMA将查询、键和值均匀拆分成多个片段,并执行不同的组聚合来生成组代理。注意力图是基于token和组代理的混合计算出来的,并用于重新组合值中的token和组。基于GMA,我们引入了一个强大的主干网络,即GroupMixFormer,它在图像分类、目标检测和语义分割方面取得了最先进的性能,同时参数数量比现有模型更少。例如,GroupMixFormer-L(具有70.3M参数和384*384输入)。在没有外部数据的情况下,在ImageNet-1K上达到了86.2%的Top1准确率,而GroupMixFormer-B(具有45.8M参数)在ADE20K上达到了51.2%的mIoU
注意力图只描述了单个粒度上每个token对之间的相关性(图1(a)),并且将注意力图与Value相乘只是线性地重新组合了各个token。这个框架显然没有考虑到不同粒度上不同token组(即邻域)之间的相关性。本文提出GMA,来缓解广泛使用的Q-K