SEBlock

代维7

于 2024-10-08 21:13:41 发布

阅读量1.5k

点赞数 47

CC 4.0 BY-SA版权

文章标签：计算机视觉

本文链接：https://blog.youkuaiyun.com/Recursions/article/details/142769577

SEBlock（Squeeze-and-Excitation Block）即压缩和激励模块，在深度学习中尤其是计算机视觉任务中被广泛应用。

一、结构和原理

Squeeze（压缩）操作：
- 通常是对输入特征图进行全局平均池化（Global Average Pooling），将每个通道的二维特征图压缩为一个实数，这个实数具有全局感受野，代表了该通道的全局特征。
- 假设输入特征图的尺寸为 $C×H×WC\times H\times W$ （其中 $C$ 是通道数， $H$ 和 $W$ 分别是特征图的高度和宽度），经过全局平均池化后得到一个 $C×1×1C\times 1\times 1$ 的张量。
Excitation（激励）操作：
- 由两个全连接层（Fully Connected layer）和一个激活函数组成。
- 第一个全连接层将压缩后的特征进行降维，通常使用一个比例系数 $r$ （例如 $r = 16$ ）来减少参数数量。假设输入特征维度为 $C$ ，经过第一个全连接层后维度变为 $C / r$ 。
- 接着使用一个激活函数（如 ReLU）来增加非线性。
- 然后再通过第二个全连接层将维度恢复到原来的通道数 $C$ 。
- 最后使用一个 Sigmoid 函数将输出值归一化到 $[0, 1]$ 的范围。
Reweight（重加权）操作：
- 将激励操作得到的权重与输入特征图逐通道相乘，即对每个通道进行加权。这样可以让网络根据全局信息有选择地增强或抑制不同的通道特征，从而提高模型对重要特征的关注度。

二、作用和优势

自适应特征重校准：
- SEBlock 能够自动学习每个通道的重要性权重，使得模型可以根据输入数据的特点动态地调整不同通道的特征响应。
- 这有助于模型更加关注信息量较大的通道特征，抑制不太重要的通道特征，从而提高模型的表示能力和性能。
轻量级且易于集成：
- SEBlock 是一个相对轻量级的模块，可以很容易地集成到现有的深度学习架构中，如卷积神经网络（Convolutional Neural Networks，CNN）。
- 可以在不显著增加模型复杂度的情况下，提升模型的性能。
通用性：
- 适用于各种计算机视觉任务，如图像分类、目标检测、语义分割等。
- 在不同的任务和数据集上都表现出了良好的性能提升效果。

三、示例代码（以 PyTorch 为例）

import torch
import torch.nn as nn

class SEBlock(nn.Module):
    def __init__(self, channel, reduction=16):
        super(SEBlock, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Linear(channel, channel // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channel // reduction, channel, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, 1, 1)
        return x * y