YOLOv12改进 | 注意力篇 | YOLOv12引入CA注意力机制

本文章已经生成可运行项目,

1.CA介绍

摘要:最近关于移动网络设计的研究已经证明了通道注意力(例如,挤压和激励注意力)对于提升模型性能的显着有效性,但它们通常忽略了位置信息,而位置信息对于生成空间选择性注意力图很重要。 在本文中,我们通过将位置信息嵌入到通道注意力中,提出了一种新颖的移动网络注意力机制,我们称之为“协调注意力”。 与通过 2D 全局池化将特征张量转换为单个特征向量的通道注意力不同,坐标注意力将通道注意力分解为两个 1D 特征编码过程,分别沿两个空间方向聚合特征。 通过这种方式,可以沿一个空间方向捕获远程依赖性,同时可以沿另一空间方向保留精确的位置信息。 然后将所得的特征图分别编码为一对方向感知和位置敏感的注意力图,这些注意力图可以互补地应用于输入特征图以增强感兴趣对象的表示。 我们的坐标注意力很简单,可以灵活地插入经典移动网络,例如 MobileNetV2、MobileNeXt 和 EfficientNet,几乎没有计算开销。 大量实验表明,我们的坐标注意力不仅有利于 ImageNet 分类,而且更有趣的是,在下游任务(例如对象检测和语义分割)中表现更好。

官方论文地址:https://arxiv.org/pdf/2103.02907

官方代码地址:https://github.com/houqb/CoordAttention

简单介绍: 坐标注意力机制是一种创新的注意力机制,它巧妙地结合了通道注意力与位置信息的优势,旨在显著增强移动网络的性能。这种机制通过对特征张量在垂直和水平两个空间维度上进行1D全局池化,精确地捕获了沿这两个方向的关键特征,不仅保留了精细的位置信息,还成功捕捉了长距离依赖性。这两个维度上捕获的特征图随后被独立地编码成具有方向感知和位置敏感性的注意力图。这些注意力图随后通过乘法操作作用于输入特征图,以精准地突出和强化图像中感兴趣的对象表示。

CA模块结构图:

2.代码

import torch
import torch.nn as nn
import math
import torch.nn.functional as F


class h_sigmoid(nn.Module):
    def __init__(self, inplace=True):
        super(h_sigmoid, self).__init__()
        self.relu = nn.ReLU6(inplace=inplace)

    def forward(self, x):
        return self.relu(x + 3) / 6


class h_swish(nn.Module):
    def __init__(self, inplace=True):
        super(h_swish, self).__init__()
        self.sigmoid = h_sigmoid(inplace=inplace)

    def forward(self, x):
        return x * self.sigmoid(x)


class CoordAtt(nn.Module):
    def __init__(self, inp, reduction=32):
        super(CoordAtt, self).__init__()
        oup = inp
        self.pool_h = nn.AdaptiveAvgPool2d((None, 1))
        self.pool_w = nn.AdaptiveAvgPool2d((1, None))

        mip = max(8, inp // reduction)

        self.conv1 = nn.Conv2d(inp, mip, kernel_size=1, stride=1, padding=0)
        self.bn1 = nn.BatchNorm2d(mip)
        self.act = h_swish()

        self.conv_h = nn.Conv2d(mip, oup, kernel_size=1, stride=1, padding=0)
        self.conv_w = nn.Conv2d(mip, oup, kernel_size=1, stride=1, padding=0)

    def forward(self, x):
        identity = x

        n, c, h, w = x.size()
        x_h = self.pool_h(x)
        x_w = self.pool_w(x).permute(0, 1, 3, 2)

        y = torch.cat([x_h, x_w], dim=2)
        y = self.conv1(y)
        y = self.bn1(y)
        y = self.act(y)

        x_h, x_w = torch.split(y, [h, w], dim=2)
        x_w = x_w.permute(0, 1, 3, 2)

        a_h = self.conv_h(x_h).sigmoid()
        a_w = self.conv_w(x_w).sigmoid()

        out = identity * a_w * a_h

        return out

3.YOLOv12中添加CA方式  

3.1 在ultralytics/nn下新建Extramodule

3.2 在Extramodule里创建CA

在CA.py文件里添加给出的CA代码

添加完CA代码后,在ultralytics/nn/Extramodule/__init__.py文件中引用

3.3 在task.py里引用

在ultralytics/nn/tasks.py文件里引用Extramodule

在task.py找到parse_model(ctrl+f可以直接搜索parse_model位置

添加如下代码:

        elif m in {CoordAtt}:
            c2 = ch[f]
            args = [c2, *args]

4.新建一个YOLOv12CA.yaml文件

# YOLOv12 🚀, AGPL-3.0 license
# YOLOv12 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 6 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov12n.yaml' will call yolov12.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024] # summary: 465 layers, 2,603,056 parameters, 2,603,040 gradients, 6.7 GFLOPs
  s: [0.50, 0.50, 1024] # summary: 465 layers, 9,285,632 parameters, 9,285,616 gradients, 21.7 GFLOPs
  m: [0.50, 1.00, 512] # summary: 501 layers, 20,201,216 parameters, 20,201,200 gradients, 68.1 GFLOPs
  l: [1.00, 1.00, 512] # summary: 831 layers, 26,454,880 parameters, 26,454,864 gradients, 89.7 GFLOPs
  x: [1.00, 1.50, 512] # summary: 831 layers, 59,216,928 parameters, 59,216,912 gradients, 200.3 GFLOPs


# YOLO12n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2]] # 1-P2/4
  - [-1, 2, C3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2]] # 3-P3/8
  - [-1, 2, C3k2,  [512, False, 0.25]]
  - [-1, 1, Conv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, Conv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

# YOLO12n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, A2C2f, [512, False, -1]] # 11

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, A2C2f, [256, False, -1]] # 14
  - [-1, 1, CoordAtt, []]   # 15

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 11], 1, Concat, [1]] # cat head P4
  - [-1, 2, A2C2f, [512, False, -1]] # 18
  - [-1, 1, CoordAtt, []]  # 19

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 8], 1, Concat, [1]] # cat head P5
  - [-1, 2, C3k2, [1024, True]] # 22 (P5/32-large)
  - [-1, 1, CoordAtt, []]   # 23

  - [[15, 19, 23], 1, Detect, [nc]] # Detect(P3, P4, P5)

大家根据自己的数据集实际情况,修改nc大小。

5.模型训练

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO

if __name__ == '__main__':
    model = YOLO(r'C:\Users\14205\Desktop\yolov12-main\datasets\YOLOv12CA.yaml')
    model.train(data=r'C:\Users\14205\Desktop\yolov12-main\datasets\data.yaml',
                cache=False,
                imgsz=640,
                epochs=1,
                single_cls=False,  # 是否是单类别检测
                batch=4,
                close_mosaic=10,
                workers=0,
                device='0',
                patience=0,
                optimizer='SGD',
                amp=True,
                project='runs/train',
                name='exp',
                )

模型结构打印,成功运行 :

6.本文总结

到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv12改进有效涨点专栏,本专栏目前为新开的,后期我会根据各种前沿顶会进行论文复现,也会对一些老的改进机制进行补充,如果大家觉得本文帮助到你了,订阅本专栏,关注后续更多的更新~

本文章已经生成可运行项目
### 插入自定义模块到YOLOv7 为了在YOLOv7中插入自定义模块或组件,需遵循特定的方法来确保模型能够正常工作并有效利用新加入的功能。以下是实现这一目标的具体方法: #### 修改配置文件 首先,在`*.yaml`配置文件中定义新的层或路径。这涉及到修改现有的网络架构描述,以便引入计划添加的新特性[^1]。 ```yaml # 假设这是部分新增加的内容 backbone: - from: [-1] number: 1 module: custom_module.CustomLayer args: [arg1, arg2] head: ... ``` 这里展示了如何通过编辑`.yaml`文件指定要使用的自定义层及其参数。注意替换`custom_module.CustomLayer`为实际创建的Python类路径,并调整输入参数以适应具体需求。 #### 创建自定义PyTorch模块 接着,编写对应的Python脚本用于构建该自定义层。通常情况下,这些代码会被放置在一个独立的包里,方便管理和导入。下面是一个简单的例子说明怎样建立一个新的卷积块(假设命名为CustomConvBlock),它可以在训练过程中被调用。 ```python import torch.nn as nn class CustomConvBlock(nn.Module): def __init__(self, in_channels, out_channels, kernel_size=3, stride=1, padding=None, groups=1, act=True): super().__init__() self.conv = nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=kernel_size, stride=stride, padding=(kernel_size - 1) // 2 if not isinstance(padding, int) else padding, groups=groups, bias=False) self.bn = nn.BatchNorm2d(num_features=out_channels) self.act = nn.LeakyReLU(0.1, inplace=True) if act else None def forward(self, x): output = self.conv(x) output = self.bn(output) return self.act(output) if self.act is not None else output ``` 此段代码实现了带有批标准化和激活函数的标准二维卷积操作。可以根据项目需要进一步扩展功能,比如增加额外的正则化手段或是改变激活方式等[^3]。 #### 更新初始化过程 最后一步是在主程序启动时加载上述更改后的设置。对于基于PyTorch Lightning或其他高级框架开发的应用来说,可能还需要适当调整数据预处理逻辑以及优化器的选择策略等方面的工作。 ```python from models.common import AutoShape from models.experimental import attempt_load from utils.general import check_img_size from pathlib import Path weights_path = 'path_to_your_weights' cfg_file = 'your_modified_yaml.cfg' model = attempt_load(weights=weights_path, map_location='cuda') _ = model.eval() # 设置评估模式 imgsz = check_img_size(img_size=640, s=model.stride.max()) # 验证图像尺寸是否合适 model = AutoShape(model) # 自动适配不同形状的数据输入 ``` 以上步骤概括了向YOLOv7集成第三方组件的主要流程。当然,实践中还需考虑更多细节问题,如性能瓶颈分析、超参微调等。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值