前言
本文介绍了Spatial Group-wise Enhance (SGE)模块及其在YOLOv11中的应用。SGE模块旨在增强卷积神经网络中的语义特征学习,通过全局和局部特征描述符的相似性引导注意力因子,调整子特征重要性,抑制噪声。该模块轻量级,几乎不增加额外参数和计算量。我们将SGE模块引入YOLOv11,在检测头部分的不同尺度特征图上应用。实验表明,改进后的YOLOv11在目标检测任务中表现良好,证明了SGE模块对提升模型性能的有效性。
文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
专栏链接: YOLOv11改进专栏
介绍

摘要
卷积神经网络(CNNs)通过层次化聚合语义子特征来构建复杂对象的特征表示体系,这些子特征通常以分组形式分布于各层特征向量中,表征多样化的语义实体[43, 32]。然而,这些子特征的激活过程易受相似模式及噪声背景的空间干扰,从而导致定位与识别误差。本研究提出了一种空间分组增强(SGE)模块,通过为每个语义组内的空间位置生成注意力因子来动态调整各子特征的重要性权重,使得每个独立语义组能够自主强化其学习表征并有效抑制潜在噪声干扰。注意力因子仅由组内全局与局部特征描述符之间的相似性度量引导,因此SGE模块设计极为轻量化,几乎不引入额外参数和计算开销。尽管仅采用类别监督进行训练,SGE组件在凸显多个具有高阶语义特征的活跃区域(如犬类的眼睛、鼻子等)方面表现出卓越效能。当与主流CNN主干网络集成时,SGE能够显著提升图像识别任务的性能表现。具体而言,在ResNet50主干网络基础上,SGE在ImageNet基准测试中实现了1.2%的Top-1准确率提升,在COCO基准测试中针对多种检测器架构(包括Faster/Mask/Cascade RCNN及RetinaNet)获得了1.0%至2.0%的平均精度(AP)增益。相关代码及预训练模型可在https://github.com/implus/PytorchInsight获取。
YOLOv11引入SGE注意力机制
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



