YOLO11 改进、魔改|双坐标注意力特征提取模块DCAFE,通过并行平均 - 最大池化与坐标注意力编码,高效捕捉特征图的长程依赖、位置信息

        在深度学习图像特征提取任务中,传统注意力机制存在明显局限:例如 Squeeze-and-Excitation(SE)注意力仅聚焦于编码通道间信息,完全忽略了对特征判别至关重要的位置信息;即便常规坐标注意力(CA)能捕捉方向与位置关联,但其多依赖单一平均池化操作,易导致关键特征模糊(如平均池化的均值计算会聚合冗余信息),难以应对复杂场景(如目标与背景相似、类内差异大等)。在药用花卉识别等任务中,复杂背景、花瓣纹理细微差异等问题进一步凸显了传统模块的不足 —— 无法同时兼顾长程依赖捕捉、位置信息保留与鲁棒特征提取。为解决这一痛点,DCAFE(双坐标注意力特征提取)模块应运而生,旨在通过创新结构优化特征提取能力,同时控制计算开销。

1.DCAFE原理

        DCAFE 以坐标注意力(CA)为基础,核心创新在于并行融合平均池化与最大池化,实现 “全局趋势 + 局部关键” 特征的双重捕捉。具体流程如下:

  1. 对输入特征图(维度为H×W×C,H为高度、W为宽度、C为通道数),分别沿水平方向(X 轴,池化核大小(H,1))和垂直方向(Y 轴,池化核大小(W,1))执行两类池化:平均池化(XAvgPool、YAvgPool)提取全局平稳特征以抑制噪声,最大池化(XMaxPool、YMaxPool)保留局部关键特征(如边缘、纹理)以避免细节丢失;
  2. 对池化后的特征向量,通过 1×1 卷积进行通道降维(下采样比Dr​=32,确保计算效率),经 ReLU6 激活函数限制数值范围以稳定训练;
  3. 将降维后的特征沿空间维度拆分为水平和垂直方向的特征张量,再通过 1×1 卷积恢复原始通道数,经 sigmoid 函数生成对应的水平(sha​、shm​)和垂直(swa​、swm​)注意力权重矩阵;
  4. 分别将平均池化、最大池化对应的注意力权重与原始特征图相乘,得到两类注意力增强特征图(Ya、Ym),最终通过特征拼接输出增强后的特征图,实现长程依赖、位置信息与鲁棒特征的一体化提取,且无额外大量计算开销。

DCAFE 模块整体呈 “并行提取 - 编码增强 - 拼接输出” 的三层结构,具体包含三个核心组件:

  1. 并行池化层:作为特征输入与初步筛选单元,同时部署平均池化分支和最大池化分支 —— 平均池化分支(XAvgPool、YAvgPool)沿 X/Y 轴提取全局特征以过滤背景噪声,最大池化分支(XMaxPool、YMaxPool)沿 X/Y 轴捕捉局部关键特征以保留细节,双分支并行确保特征的全面性;
  2. 坐标注意力编码层:作为特征增强核心,对并行池化后的特征向量依次执行 “1×1 卷积降维→ReLU6 激活→空间维度拆分→1×1 卷积通道恢复→sigmoid 权重生成” 操作,将空间坐标信息编码为注意力权重,实现对目标位置与方向的精准聚焦;
  3. 特征拼接层:作为输出单元,将平均池化分支生成的全局增强特征图(Ya)与最大池化分支生成的局部增强特征图(Ym)拼接,最终输出 1260 个增强通道的特征图,为后续任务(分类、检测、分割)提供富含判别性的特征基础。

2. DCAFE习作思路

在目标检测中的优点

        结合 DCAFE 的并行池化与坐标注意力编码结构,在目标检测中,其能通过水平 / 垂直方向的双池化精准捕捉目标的位置与姿态信息(如小目标的边界轮廓、重叠目标的空间分布),避免单一池化导致的目标细节模糊或位置偏移;同时,长程依赖捕捉能力可有效区分目标与复杂背景(如目标被遮挡、背景元素与目标纹理相似的场景),强化对目标关键区域(如目标的局部判别特征)的注意力权重,减少背景噪声对检测框定位与类别判断的干扰,进而提升检测的精准度、召回率与小目标检测性能。

在分割中的优点

        DCAFE 的结构设计使其在分割任务中具备 “全局 - 局部” 协同的优势:并行的平均池化与最大池化能分别保留分割目标的全局结构特征(如目标的整体形态、区域范围)和局部细节特征(如目标的边缘纹理、细微轮廓),避免单一池化造成的边缘丢失或冗余背景信息混入;坐标注意力编码则能精准定位分割目标的空间位置,对目标区域的特征响应进行强化,对背景区域的特征进行抑制,从而在精细分割场景(如多目标重叠分割、边缘模糊目标分割)中,有效提升分割结果的边缘精度(减少边缘锯齿)与区域一致性(避免目标区域断裂或背景误分割)。

3. YOLO与DCAFE的结合   

        YOLO 作为实时目标检测模型,融入 DCAFE 后,可借助其坐标注意力机制精准捕捉小目标、重叠目标的特征,减少复杂背景对目标识别的干扰,解决 YOLO 在小目标检测精度不足的痛点;同时 DCAFE 无额外大量计算开销的特性,能在提升检测精度的同时,保障 YOLO 原有的实时性优势,避免模型复杂度显著增加导致的推理速度下降。

4.DCAFE代码部分

YOLO11|YOLO12|改进| 双坐标注意力特征提取模块DCAFE,通过并行平均 - 最大池化与坐标注意力编码,高效捕捉特征图的长程依赖、位置信息_哔哩哔哩_bilibili

YOLOv11模型改进讲解,教您如何修改YOLOv11_哔哩哔哩_bilibili

 代码获取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. DCAFE到YOLOv11中

第一: 将下面的核心代码复制到D:\model\yolov11\ultralytics\change_model路径下,如下图所示。

            ​​​​​​      

第二:在task.py中导入

 ​​​                     

第三:在task.py中的模型配置部分下面代码

                    ​​​​​​​​​​​​​​ ​​​​​​​​​​​​​​     ​​​​​​​ 

第四:将模型配置文件复制到YOLOV11.YAMY文件中

  ​​​​​​​ ​​​​​​​    ​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​ ​​​​​​​​​​​​​​​​​​​​​ ​​​​​​​   

     ​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​第五:运行代码

from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorld
import torch
if __name__=="__main__":



    # 使用自己的YOLOv8.yamy文件搭建模型并加载预训练权重训练模型
    model = YOLO("/home/shengtuo/tangfan/YOLO11/ultralytics/cfg/models/11/yolo11_CSA_ConvBlock.yaml")\
        # .load(r'E:\Part_time_job_orders\YOLO\YOLOv11\yolo11n.pt')  # build from YAML and transfer weights

    results = model.train(data="/home/shengtuo/tangfan/YOLO11/ultralytics/cfg/datasets/VOC_my.yaml",
                          epochs=300,
                          imgsz=640,
                          batch=4,
                          # cache = False,
                          # single_cls = False,  # 是否是单类别检测
                          # workers = 0,
                          # resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',
                          amp = False
                          )
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值