YOLOv12改进 | 注意力篇 | YOLOv12引入GAM注意力机制

1.GAM介绍

摘要:为了提高各种计算机视觉任务的性能,人们研究了各种注意机制。然而,现有的方法忽略了保留通道和空间信息以增强跨维交互的重要性。因此,我们提出了一种通过减少信息减少和放大全球交互表示来提高深度神经网络性能的全球驻留机制。我们引入了具有多层单个Ceptron的3D置换用于信道注意,同时还引入了卷积空间注意子模块。对 CIFAR-100和lmageNet-1K上图像分类任务的拟议机制的评估表明我们的方法稳定地优于ResNet和轻量级的 MobileNet的几个最近的注意机制。

官方论文地址:https://ar5iv.labs.arxiv.org/html/2112.05561

官方代码地址:https://github.com/dengbuqi/GAM_Pytorch/blob/main/CAM.py

简单介绍: GAM旨在通过设计一种机制,减少信息损失并放大全局维度互动特征,从而解决传统注意力机制在通道和空间两个维度上保留信息不足的问题。GAM采用了顺序的通道-空间注意力制,并对子模块进行了重新设计。具体来说,通道注意力子模块使用3D排列来跨三个维度保留信息,并通过一个两层的MLP增强跨维度的通道-空间依赖性。在空间注意力子模块中,为了更好地关注空间信息,采用了两个卷积层进行空间信息融合,同时去除了可能导致信息减少的最大池化操作。

GAM模块结构图如下:

2.代码

import torch
import torch.nn as nn


class GAM(nn.Module):
    def __init__(self, in_channels, rate=4):
        super().__init__()
        out_channels = in_channels
        in_channels = int(in_channels)
        out_channels = int(out_channels)
        inchannel_rate = int(in_channels / rate)

        self.linear1 = nn.Linear(in_channels, inchannel_rate)
        self.relu = nn.ReLU(inplace=True)
        self.linear2 = nn.Linear(inchannel_rate, in_channels)

        self.conv1 = nn.Conv2d(in_channels, inchannel_rate, kernel_size=7, padding=3, padding_mode='replicate')

        self.conv2 = nn.Conv2d(inchannel_rate, out_channels, kernel_size=7, padding=3, padding_mode='replicate')

        self.norm1 = nn.BatchNorm2d(inchannel_rate)
        self.norm2 = nn.BatchNorm2d(out_channels)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        b, c, h, w = x.shape
        # B,C,H,W ==> B,H*W,C
        x_permute = x.permute(0, 2, 3, 1).view(b, -1, c)

        # B,H*W,C ==> B,H,W,C
        x_att_permute = self.linear2(self.relu(self.linear1(x_permute))).view(b, h, w, c)

        # B,H,W,C ==> B,C,H,W
        x_channel_att = x_att_permute.permute(0, 3, 1, 2)

        x = x * x_channel_att

        x_spatial_att = self.relu(self.norm1(self.conv1(x)))
        x_spatial_att = self.sigmoid(self.norm2(self.conv2(x_spatial_att)))

        out = x * x_spatial_att

        return out

3.YOLOv12中添加GAM方式  

3.1 在ultralytics/nn下新建Extramodule

3.2 在Extramodule里创建GAM

在GAM.py文件里添加给出的GAM代码

添加完GAM代码后,在ultralytics/nn/Extramodule/__init__.py文件中引用

3.3 在task.py里引用

在ultralytics/nn/tasks.py文件里引用Extramodule

在tasks.py找到parse_model(ctrl+f可以直接搜索parse_model位置

添加如下代码:

        elif m in {GAM}:
            c2 = ch[f]
            args = [c2, *args]

4.新建一个YOLOv12GAM.yaml文件

# YOLOv12 🚀, AGPL-3.0 license
# YOLOv12 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 6 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov12n.yaml' will call yolov12.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024] # summary: 465 layers, 2,603,056 parameters, 2,603,040 gradients, 6.7 GFLOPs
  s: [0.50, 0.50, 1024] # summary: 465 layers, 9,285,632 parameters, 9,285,616 gradients, 21.7 GFLOPs
  m: [0.50, 1.00, 512] # summary: 501 layers, 20,201,216 parameters, 20,201,200 gradients, 68.1 GFLOPs
  l: [1.00, 1.00, 512] # summary: 831 layers, 26,454,880 parameters, 26,454,864 gradients, 89.7 GFLOPs
  x: [1.00, 1.50, 512] # summary: 831 layers, 59,216,928 parameters, 59,216,912 gradients, 200.3 GFLOPs


# YOLO12n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2]] # 1-P2/4
  - [-1, 2, C3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2]] # 3-P3/8
  - [-1, 2, C3k2,  [512, False, 0.25]]
  - [-1, 1, Conv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, Conv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

# YOLO12n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, A2C2f, [512, False, -1]] # 11

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, A2C2f, [256, False, -1]] # 14
  - [-1, 1, GAM, []]   # 15

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 11], 1, Concat, [1]] # cat head P4
  - [-1, 2, A2C2f, [512, False, -1]] # 18
  - [-1, 1, GAM, []]  # 19

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 8], 1, Concat, [1]] # cat head P5
  - [-1, 2, C3k2, [1024, True]] # 22 (P5/32-large)
  - [-1, 1, GAM, []]   # 23

  - [[15, 19, 23], 1, Detect, [nc]] # Detect(P3, P4, P5)

大家根据自己的数据集实际情况,修改nc大小。

5.模型训练

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO

if __name__ == '__main__':
    model = YOLO(r'C:\Users\14205\Desktop\yolov12-main\datasets\YOLOv12GAM.yaml')
    model.train(data=r'C:\Users\14205\Desktop\yolov12-main\datasets\data.yaml',
                cache=False,
                imgsz=640,
                epochs=1,
                single_cls=False,  # 是否是单类别检测
                batch=16,
                close_mosaic=10,
                workers=0,
                device='0',
                patience=0,
                scale=0.5,
                mosaic=1.0,
                mixup=0.0,
                copy_paste=0.1,
                optimizer='SGD',
                amp=True,
                project='runs/train',
                name='exp',
                )

模型结构打印,成功运行 :

6.本文总结

到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv12改进有效涨点专栏,本专栏目前为新开的,后期我会根据各种前沿顶会进行论文复现,也会对一些老的改进机制进行补充,如果大家觉得本文帮助到你了,订阅本专栏,关注后续更多的更新~

### 如何在 YOLOv8 中集成 GAM 注意力机制 #### 方法概述 为了增强YOLOv8模型的表现,在网络架构中加入GAM (Global Average Maximum Attention) 注意力机制可以有效提升特征表达能力。通过调整通道间的依赖关系,GAM能够帮助模型聚焦于更重要的特征区域。 #### 集成步骤说明 在网络层定义部分引入GAM模块,并将其嵌入到YOLOv8的基础骨干网或其他适当位置。具体来说,可以在每个卷积块之后添加该模块来加强局部特征的学习效果[^3]。 #### Python代码实现示例 下面给出了一段简单的Python代码片段,展示了如何创建并应用GAM注意力层: ```python import torch.nn as nn class GAMAttention(nn.Module): """ GAM Attention Module """ def __init__(self, c1, c2, g=1, ratio=16): super(GAMAttention, self).__init__() # Channel attention module self.channel_attention = nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Conv2d(in_channels=c1, out_channels=c1//ratio, kernel_size=1, stride=1, padding=0, groups=g), nn.ReLU(), nn.Conv2d(in_channels=c1//ratio, out_channels=c1, kernel_size=1, stride=1, padding=0, groups=g), nn.Sigmoid() ) # Spatial attention module self.spatial_attention = nn.Sequential( nn.Conv2d(in_channels=2, out_channels=1, kernel_size=7, stride=1, padding=3, bias=False), nn.BatchNorm2d(1), nn.Sigmoid() ) def forward(self, x): b, c, h, w = x.size() # Apply channel-wise attention first y_c = self.channel_attention(x).view(b,c,1,1) # Then apply spatial-wise attention on the output of previous step avg_out = torch.mean(y_c*x,dim=1,keepdim=True) max_out,_ = torch.max(y_c*x,dim=1,keepdim=True) scale = torch.cat([avg_out,max_out], dim=1) y_s = self.spatial_attention(scale) return y_s * y_c * x # Example usage within a CNN architecture like YOLOv8 backbone or neck part. def add_gam_to_yolov8(model): for name,module in model.named_children(): if isinstance(module,nn.Conv2d): # Assuming Conv layers are where we want to insert GAM setattr(model,name,GAMAttention(c1=module.in_channels,c2=module.out_channels)) elif hasattr(module,'children'): add_gam_to_yolov8(module) # Note that this is just an illustrative example and may need adjustments based on actual implementation details. ``` 上述代码实现了基本的GAM注意力机制,并提供了将此功能添加至现有YOLOv8模型中的方法。需要注意的是实际部署时可能还需要考虑更多细节上的适配工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值