DAY 49 CBAM注意力

最新推荐文章于 2025-12-12 19:34:17 发布

原创

最新推荐文章于 2025-12-12 19:34:17 发布 · 834 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习

知识点回顾：

通道注意力模块复习
空间注意力模块
CBAM的定义

一、CBAM的定义

之前我们介绍了SE通道注意力，我们说所有的模块本质上只是对特征进一步提取，今天进一步介绍CBAM注意力：

CBAM 是一种能够集成到任何卷积神经网络架构中的注意力模块。

核心目标：通过学习的方式，自动获取特征图在通道和空间维度上的重要性，进而对特征图进行自适应调整，增强重要特征，抑制不重要特征，提升模型的特征表达能力和性能。简单来说，它就像是给模型装上了 “智能眼镜”，让模型能够更精准地看到图像中关键的部分

CBAM 由两个主要部分组成：通道注意力模块（Channel Attention Module）和空间注意力模块（Spatial Attention Module）。这两个模块顺序连接，共同作用于输入的特征图。

SE 通道注意力的局限：仅关注 “哪些通道重要”，未考虑 “重要信息在空间中的位置”。

CBAM 的突破：

通道注意力（Channel Attention）：分析 “哪些通道的特征更关键”（如图像中的颜色、纹理通道）。
空间注意力（Spatial Attention）：定位 “关键特征在图像中的具体位置”（如物体所在区域）。
二者结合：让模型同时学会 “关注什么” 和 “关注哪里”，提升特征表达能力。

输入特征图 → 通道注意力模块 → 空间注意力模块 → 输出增强后的特征图

轻量级设计：仅增加少量计算量（全局池化 + 简单卷积），适合嵌入各种 CNN 架构（如 ResNet、YOLO）。

即插即用：无需修改原有模型主体结构，直接作为模块插入卷积层之间。

双重优化：同时提升通道和空间维度的特征质量，尤其适合复杂场景（如小目标检测、语义分割）。

import torch
import torch.nn as nn

# 定义通道注意力
class ChannelAttention(nn.Module):
    def __init__(self, in_channels, ratio=16):
        """
        通道注意力机制初始化
        参数:
            in_channels: 输入特征图的通道数
            ratio: 降维比例，用于减少参数量，默认为16
        """
        super().__init__()
        # 全局平均池化，将每个通道的特征图压缩为1x1，保留通道间的平均值信息
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        # 全局最大池化，将每个通道的特征图压缩为1x1，保留通道间的最显著特征
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        # 共享全连接层，用于学习通道间的关系
        # 先降维（除以ratio），再通过ReLU激活，最后升维回原始通道数
        self.fc = nn.Sequential(
            nn.Linear(in_channels, in_channels // ratio, bias=False),  # 降维层
            nn.ReLU(),  # 非线性激活函数
            nn.Linear(in_channels // ratio, in_channels, bias=False)   # 升维层

最低0.47元/天解锁文章