前言
本文介绍了基于混合注意力的Transformer架构——HAT(Hybrid Attention Transformer),作为图像超分辨率领域的创新解决方案。该方法通过结合通道注意力和窗口自注意力机制,有效激活更多输入像素以获取更精细的重建效果。特别是新引入的重叠交叉注意力模块(OCAB)增强了相邻窗口特征间的信息交互,克服了传统Transformer模型窗口间信息隔离的限制。我们将HAT模块成功集成到YOLOv11的检测架构中,通过简单的接口替换原有特征提取模块,实现了注意力机制与目标检测的高效结合。实验结果表明,结合HAT的YOLOv11在保持原有检测性能的同时,能更有效地利用图像细节信息,提升特征表达能力。
文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总-优快云博客
专栏链接: YOLOv11改进专栏
文章目录
介绍

摘要
基于Transformer的方法在低级视觉任务中表现出色,例如图像超分辨率。然而,通过归因分析,我们发现这些网络只能利用输入信息的有限空间范围。这表明Transformer在现有网络中的潜力尚未完全发挥。为了激活更多的输入像素以获得更好的重建效果,我们提出了一种新颖的混合注意力Transformer(Hybrid Attention Transformer, HAT)。它结合了通道注意力和基于窗口的自注意力机制,从而利用了它们能够利用全局统计信息和强大的局部拟合能力的互补优势。此外,为了更好地聚合跨窗口信息,我们引入了一个重叠交叉注意模块,以增强相邻窗口特征之间的交互。在训练阶段,我们还采用了同任务预训练策略,以进一步挖掘模型的潜力。大量实验表明了所提模块的有效性,我们进一步扩大了模型规模,证明了该任务的性能可以大幅提高。我们的方法整体上显著优于最先进的方法,超过了1dB。
创新点
-
更多像素的激活:通过结合不同的注意力机制,HAT能够激活更多的输入像素,这在图像超分辨率领域尤为重要,因为它直接关系到重建图像的细节和质量。
-
交叉窗口信息的有效聚合:通过重叠交叉注意力模块,HAT模型能够更有效地聚
订阅专栏 解锁全文
115

被折叠的 条评论
为什么被折叠?



