YOLOv11 改进 - 注意力机制 | HAT混合注意力变换器：超分重建能力迁移，提升小目标特征清晰度与检测精度

最新推荐文章于 2025-12-07 18:23:51 发布

魔改工程师

最新推荐文章于 2025-12-07 18:23:51 发布

阅读量671

点赞数 10

CC 4.0 BY-SA版权

分类专栏：最新YOLOv11改进专栏文章标签： YOLO 人工智能计算机视觉深度学习目标检测

本文链接：https://blog.youkuaiyun.com/yolochangeworld/article/details/155169620

最新YOLOv11改进专栏专栏收录该内容

157 篇文章 ¥49.90 ¥99.00

订阅专栏

部署运行你感兴趣的模型镜像

前言

本文介绍了基于混合注意力的Transformer架构——HAT（Hybrid Attention Transformer），作为图像超分辨率领域的创新解决方案。该方法通过结合通道注意力和窗口自注意力机制，有效激活更多输入像素以获取更精细的重建效果。特别是新引入的重叠交叉注意力模块（OCAB）增强了相邻窗口特征间的信息交互，克服了传统Transformer模型窗口间信息隔离的限制。我们将HAT模块成功集成到YOLOv11的检测架构中，通过简单的接口替换原有特征提取模块，实现了注意力机制与目标检测的高效结合。实验结果表明，结合HAT的YOLOv11在保持原有检测性能的同时，能更有效地利用图像细节信息，提升特征表达能力。

文章目录： YOLOv11改进大全：卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总-优快云博客

专栏链接: YOLOv11改进专栏

介绍

摘要

基于Transformer的方法在低级视觉任务中表现出色，例如图像超分辨率。然而，通过归因分析，我们发现这些网络只能利用输入信息的有限空间范围。这表明Transformer在现有网络中的潜力尚未完全发挥。为了激活更多的输入像素以获得更好的重建效果，我们提出了一种新颖的混合注意力Transformer（Hybrid Attention Transformer, HAT）。它结合了通道注意力和基于窗口的自注意力机制，从而利用了它们能够利用全局统计信息和强大的局部拟合能力的互补优势。此外，为了更好地聚合跨窗口信息，我们引入了一个重叠交叉注意模块，以增强相邻窗口特征之间的交互。在训练阶段，我们还采用了同任务预训练策略，以进一步挖掘模型的潜力。大量实验表明了所提模块的有效性，我们进一步扩大了模型规模，证明了该任务的性能可以大幅提高。我们的方法整体上显著优于最先进的方法，超过了1dB。