UCTransNet 多尺度自注意力机制用于上下采样

Env1sage

于 2025-07-30 17:01:32 发布

阅读量186

点赞数

CC 4.0 BY-SA版权

分类专栏：自注意力模块文章标签：深度学习人工智能 transformer cnn

本文链接：https://blog.youkuaiyun.com/Env1sage/article/details/149780698

1 篇文章

订阅专栏

UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer

AAAI 2022
论文：https://arxiv.org/abs/2109.04335
代码：https://github.com/mcgregorwwww/uctransnet

在这里插入图片描述

本文设计了CTrans（Channel Transformer）模块，完全替代 U-Net 中原始的跳跃连接，其核心是通过通道角度的交叉注意力机制，桥接编码器与解码器的语义和分辨率差距，具体包括两个子模块：

从通道维度出发，通过多头部通道交叉注意力融合多尺度编码器特征。它将不同尺度的编码器特征作为查询（Query），并将所有尺度特征的拼接作为键（Key）和值（Value），通过交叉注意力捕捉通道间的非局部语义依赖，自适应解决多尺度特征间的语义差距（而非独立连接各尺度特征）。

用于融合 CCT 输出的多尺度特征与解码器特征，通过全局平均池化提取通道级全局信息，生成注意力掩码，动态筛选关键通道信息，解决编码器（经 CCT 处理）与解码器特征间的语义层次不一致问题，消除特征融合的模糊性。

从通道角度融合 Transformer 与 U-Net，实现更高效的特征交互
现有结合 Transformer 与 U-Net 的方法（如 TransUNet、Swin-Unet）多将 Transformer 用于替换卷积层以捕捉空间长程依赖，而 UCTransNet 的创新在于：
- 聚焦通道维度而非空间维度，利用 Transformer 的交叉注意力机制处理通道间的依赖关系，避免了将 Transformer 用于空间特征提取带来的高计算成本；
- 实现了 U-Net 与 Transformer 的轻量化结合：CTrans 模块仅替代跳跃连接，保留 U-Net 主体结构，在降低计算量（参数和 FLOPs 优于 TransUNet、Swin-Unet 等）的同时，显著提升性能。