YOLOv11 改进 - 注意力机制 | STA超级令牌注意力机制：超级令牌采样实现高效全局依赖捕获，优化多尺度感知-优快云博客

本文链接：https://blog.youkuaiyun.com/yolochangeworld/article/details/155169562

前言

本文介绍了超级令牌注意力（STA）机制及其在YOLOv11中的结合。STA机制通过引入超级令牌，将原始标记聚合成有语义意义的单元，减少自注意力计算复杂度，提高全局信息捕获效率。它包括超级令牌采样、多头自注意力和标记上采样等步骤，实现全局与局部的高效信息交互。基于此，设计了层次化的视觉Transformer结构。我们将StokenAttention集成进YOLOv11的模型结构中，在骨干网络和检测头部分引入该模块。实验表明，该方法在图像分类、目标检测和语义分割等视觉任务上表现优异。

文章目录： YOLOv11改进大全：卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

摘要

视觉Transformer在众多视觉任务中展现出卓越的表现，然而在浅层阶段捕捉局部特征时，往往面临信息高度冗余的问题。为缓解这一问题，研究者尝试在早期阶段引入局部自注意力或卷积操作，以降低冗余程度，但这在一定程度上牺牲了对长距离依赖关系的建模能力。由此引出一个关键挑战：能否在网络初期，既高效又有效地实现全局上下文建模？

为应对此问题，我们从超像素（Superpixel）的设计理念中汲取灵感。超像素通过减少图像基元的数量，简化了后续处理流程。受此启发，我们在视觉Transformer中引入了超级令牌（Super Token），以实现对视觉内容更具语义性的划分。这一设计既有效降低了自注意力模块中的令牌数量，又保留了强大的全局建模能力。

具体而言，我们提出了一种简洁而高效的超级令牌注意力机制（Super Token Attention, STA），其核心包括三个步骤：首先，通过稀疏关联学习从原始视觉令牌中抽取出代表性超级令牌；其次，对这些超级令牌施加自注意力操作，以建模全局依赖关系；最后，再将处理结果映射回原始令牌空间，实现细粒度特征的精确表达。STA巧妙地将传统全局注意力操作分解为稀疏关联图与低维度注意力的乘积，大幅提升了建