【Yolov5】涨点亲测有效，Yolov5添加PSA极化自注意力机制

原创已于 2023-02-17 19:46:05 修改 · 4.4k 阅读

120 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #python #计算机视觉 #人工智能

于 2023-02-04 20:12:34 首次发布

文章介绍了如何将PSA（极化自注意力机制）集成到Yolov5目标检测算法中，提供了PSA的源代码实现，并详细阐述了添加步骤，包括在网络结构中引入PSA模块，以及创建配置文件进行网络构建和验证。

部署运行你感兴趣的模型镜像

Yolov5添加PSA极化自注意力机制

最近在学习目标检测领域的yolov5算法，发现PSA（极化自注意力机制）对于该算法的改进可能有用，于是在网上几经搜寻，无果，遂自己动手写了一个，现分享给大家

PSA极化自注意力机制来源

论文链接: Polarized Self-Attention: Towards High-quality Pixel-wise Regression
代码地址: https://github.com/DeLightCMU/PSA

使用效果

图1 原图

图2 平行极化

图3 顺序极化

极化过程示意图

作者在网上没有找到pytorch框架下的PSA模块源码，于是根据论文中的流程自己动手写了一个。
论文中的流程图：
channel分支与spatial分支示意图

源代码

class PSA_Channel(nn.Module):
    def __init__(self, c1) -> None:
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = nn.Conv2d(c1, c_, 1)
        self.cv2 = nn.Conv2d(c1, 1, 1)
        self.cv3 = nn.Conv2d(c_, c1, 1)
        self.reshape1 = nn.Flatten(start_dim=-2, end_dim=-1)
        self.reshape2 = nn.Flatten()
        self.sigmoid = nn.Sigmoid()
        self.softmax = nn.Softmax(1)
        self.layernorm = nn.LayerNorm([c1, 1, 1])

    def forward(self, x): # shape(batch, channel, height, width)
        x1 = self.reshape1(self.cv1(x)) # shape(batch, channel/2, height*width)
        x2 = self.softmax(self.reshape2(self.cv2(x))) # shape(batch, height*width)
        y = torch.matmul(x1, x2.unsqueeze(-1)).unsqueeze(-1) # 高维度下的矩阵乘法（最后两个维度相乘）
        return self.sigmoid(self.layernorm(self.cv3(y))) * x

class PSA_Spatial(nn.Module):
    def __init__(self, c1) -> None:
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = nn.Conv2d(c1, c_, 1)
        self.cv2 = nn.Conv2d(c1, c_, 1)
        self.reshape1 = nn.Flatten(start_dim=-2, end_dim=-1)
        self.globalPooling = nn.AdaptiveAvgPool2d(1)
        self.softmax = nn.Softmax(1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x): # shape(batch, channel, height, width)
        x1 = self.reshape1(self.cv1(x)) # shape(batch, channel/2, height*width)
        x2 = self.softmax(self.globalPooling(self.cv2(x)).squeeze(-1)) # shape(batch, channel/2, 1)
        y = torch.bmm(x2.permute(0,2,1), x1) # shape(batch, 1, height*width)
        return self.sigmoid(y.view(x.shape[0], 1, x.shape[2], x.shape[3])) * x

class PSA(nn.Module):
    def __init__(self, in_channel, parallel=True) -> None:
        super().__init__()
        self.parallel = parallel
        self.channel = PSA_Channel(in_channel)
        self.spatial = PSA_Spatial(in_channel)

    def forward(self, x):
        if(self.parallel):
            return self.channel(x) + self.spatial(x)
        return self.spatial(self.channel(x))

Yolov5添加PSA极化自注意力的步骤

第一步，将☝️上面的PSA模块代码粘贴到models/common.py文件下。

第二步，构建添加PSA模块的网络。在models文件夹下面创建yolov5s-PSA.yaml文件，并且将👇下面的内容粘贴上去。

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 80  # number of classes
depth_multiple: 0.33  # model depth multiple  深度——神经网络的层数, 宽度——每层的通道数, 分辨率——是指网络中特征图的分辨率
width_multiple: 0.50  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, PSA, [64]], # PSA
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, PSA, [128]], # PSA
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, PSA, [256]], # PSA
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]

# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 8], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 5], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 17], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 13], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[20, 23, 26], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

第三步，在终端输入命令python models/yolo.py --cfg=yolov5s-PSA.yaml，运行后可查看网络细节。
在这里插入图片描述
到这一步大功告成，我们就可以愉快的使用这个网络了😊

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

21 条评论

Cωβ 2023.11.22
这是语义分割的吗？能用在目标检测吗？
- 不会数分的程序员不是好会计回复Cωβ 2023.11.22
  这是目标检测

Jianchimt 2023.08.07
博主，yolov5s-6.0 出现这个RuntimeError: Given groups=1, weight of size [128, 32, 3, 3], expected input[1, 64, 64, 64] to have 32 channels, but got 64 channels instead 这个怎么解决呀
- 及地回复徐 TWO TWO 2023.10.23
  我解决了，把yaml文件里面PSA层的输入通道数加倍就可以了
- 徐 TWO TWO回复Jianchimt 2023.08.10
  我也遇到这个问题，请问你解决了嘛？
- 不会数分的程序员不是好会计回复Jianchimt 2023.08.07
  我有一段时间没有做yolov5了，这个问题暂时没法帮你解决

Jianchimt 2023.08.07
博主，在主干网络加四个PSA的注意力机制代码有吗
- 不会数分的程序员不是好会计回复Jianchimt 2023.08.07
  这个你类比一下就好了

不会数分的程序员不是好会计 2023.05.26
详细指导没有时间的，你研究一下就好了

Younes_ 2023.05.26
psa的加入可不可以换到head里面？
- Younes_回复不会数分的程序员不是好会计 2023.05.26
  # YOLOv5 🚀 by YOLOAir, GPL-3.0 license # YOLOv5 v6.0 head head: [[-1, 1, Conv, [512, 1, 1]], [-1, 1, nn.Upsample, [None, 2, 'nearest']], [[-1, 6], 1, Concat, [1]], # cat backbone P4 [-1, 3, C3, [512, False]], # 13 [-1, 1, Conv, [256, 1, 1]], [-1, 1, nn.Upsample, [None, 2, 'nearest']], [[-1, 4], 1, Concat, [1]], # cat backbone P3 [-1, 3, C3, [256, False]], # 17 (P3/8-small) [-1, 1, PSA, [128]], [-1, 1, Conv, [256, 3, 2]], [[-1, 14], 1, Concat, [1]], # cat head P4 [-1, 3, C3, [512, False]], # 20 (P4/16-medium) [-1, 1, PSA, [256]], [-1, 1, Conv, [512, 3, 2]], [[-1, 10], 1, Concat, [1]], # cat head P5 [-1, 3, C3, [1024, False]], # 23 (P5/32-large) [-1, 1, PSA, [512]], [[20, 23, 26], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5) ] 如果不合理，那么想问一下Detect的参数的修改依据要根据什么呢，感谢大神的回复
- 不会数分的程序员不是好会计回复Younes_ 2023.05.26
  不对，PSA模块作为参数的通道数应该减半，其次Detect中[18, 21, 24]这里显然是错的，需要修改
- Younes_回复不会数分的程序员不是好会计 2023.05.26
  head: [[-1, 1, Conv, [512, 1, 1]], [-1, 1, nn.Upsample, [None, 2, 'nearest']], [[-1, 6], 1, Concat, [1]], # cat backbone P4 [-1, 3, C3, [512, False]], # 13 [-1, 1, Conv, [256, 1, 1]], [-1, 1, nn.Upsample, [None, 2, 'nearest']], [[-1, 4], 1, Concat, [1]], # cat backbone P3 [-1, 3, C3, [256, False]], # 17 (P3/8-small) [-1, 1, PSA, [256]], [-1, 1, Conv, [256, 3, 2]], [[-1, 14], 1, Concat, [1]], # cat head P4 [-1, 3, C3, [512, False]], # 20 (P4/16-medium) [-1, 1, PSA, [512]], [-1, 1, Conv, [512, 3, 2]], [[-1, 10], 1, Concat, [1]], # cat head P5 [-1, 3, C3, [1024, False]], # 23 (P5/32-large) [-1, 1, PSA, [1024]], [[18, 21, 24], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5) ] 您觉得合理吗
- 不会数分的程序员不是好会计回复Younes_ 2023.05.26
  可以的，不过需要改动通道数等数据

深度学习YOLO 2023.05.10
你好大佬，我可以问个问题吗？小白跟着哪个UP主学可以跟您一样看到论文就可以手敲代码，还可改成适合自己的模型的模块，万分感谢
- 深度学习YOLO回复不会数分的程序员不是好会计 2023.05.10
  谢谢分享[face]emoji:007.png[/face]
- 不会数分的程序员不是好会计回复深度学习YOLO 2023.05.10
  这个，其实自己看论文，找博客，找资料学几个月就会了，最好能按照流程把整个yolov5网络复现一遍，最重要的是要看原算法的代码，所有的细节都在代码里面。我本身没有跟过哪个up学，自己能够坚持不懈的学下去才是最重要的，我之前基础还比较差，完全不懂机器学习，反正不懂就学，一点点学，不会的就写个例子，自己实现一下函数的功能，跑出来的数据结果一样，也就懂了，比如这里面就有我学习yolov5过程中写的一些程序https://gitee.com/inavacuum/pytorch_yolov5_instances

weixin_42033983 2023.03.03
你好作者，为什么你这几层PSA的参数与上一层不同可以运行呀，我的和你一样依次为64 128 256无法训练，只有改成与前一层参数一样的128 256 512才可以训练这个有影响吗原因是什么
- weixin_42033983回复不会数分的程序员不是好会计 2023.03.03
  已经点赞啦写的确实很好感谢
- weixin_42033983回复不会数分的程序员不是好会计 2023.03.03
  我的也是在YOLOV5S上改的参数和您一样但是确实是跑不了。。。我就把参数改回上下一样的了训练确实要好久
- 不会数分的程序员不是好会计回复weixin_42033983 2023.03.03
  注意看我上面yaml文件中的width_multiple这个值是0.5，因此在程序解析网络的时候C3模块的输出通道数会是原来的一半。你可能是在yolo5vl.yaml这个文件上添加的PSA，而这个网络的通道数的系数(width_multiple)是1.0，所以会有不同，区别就是训练时网络大小不同，你的会训练的久一点，精度高一些，如果觉得有帮助不妨点个赞[face]emoji:039.png[/face]