UCTransNet 多尺度自注意力机制 用于上下采样

UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer

AAAI 2022
论文:https://arxiv.org/abs/2109.04335
代码:https://github.com/mcgregorwwww/uctransnet

U-Net 原始跳跃连接存在的核心问题

  • 并非所有跳跃连接都有效,部分跳跃连接因编码器与解码器特征集不兼容(存在语义差距),反而会降低分割性能;
  • 在某些数据集上,完全去除跳跃连接的 U-Net 性能优于原始 U-Net;
  • 跳跃连接的最优组合因数据集(目标病变的尺度和外观)而异,简单的 “复制 - 拼接” 模式不适用。

在这里插入图片描述

CTrans(Channel Transformer)模块

本文设计了CTrans(Channel Transformer)模块,完全替代 U-Net 中原始的跳跃连接,其核心是通过通道角度的交叉注意力机制,桥接编码器与解码器的语义和分辨率差距,具体包括两个子模块:

CCT(Channel-wise Cross Fusion Transformer):

  • 从通道维度出发,通过多头部通道交叉注意力融合多尺度编码器特征。它将不同尺度的编码器特征作为查询(Query),并将所有尺度特征的拼接作为键(Key)和值(Value),通过交叉注意力捕捉通道间的非局部语义依赖,自适应解决多尺度特征间的语义差距(而非独立连接各尺度特征)。

CCA(Channel-wise Cross Attention):

  • 用于融合 CCT 输出的多尺度特征与解码器特征,通过全局平均池化提取通道级全局信息,生成注意力掩码,动态筛选关键通道信息,解决编码器(经 CCT 处理)与解码器特征间的语义层次不一致问题,消除特征融合的模糊性。
    在这里插入图片描述

效果&总结

  • 从通道角度融合 Transformer 与 U-Net,实现更高效的特征交互
  • 现有结合 Transformer 与 U-Net 的方法(如 TransUNet、Swin-Unet)多将 Transformer 用于替换卷积层以捕捉空间长程依赖,而 UCTransNet 的创新在于:
    • 聚焦通道维度而非空间维度,利用 Transformer 的交叉注意力机制处理通道间的依赖关系,避免了将 Transformer 用于空间特征提取带来的高计算成本;
    • 实现了 U-Net 与 Transformer 的轻量化结合:CTrans 模块仅替代跳跃连接,保留 U-Net 主体结构,在降低计算量(参数和 FLOPs 优于 TransUNet、Swin-Unet 等)的同时,显著提升性能。

** 思考**

  • 交叉注意力模块的K和V可以将多头的内容concat后计算,减少K和V的参数和计算量
  • FFN层逐个对应多头的注意力结果,不共享参数,便于保持多头输入的差异性
  • 绘图方面,图一的对比非常清晰,图二像水管电路的排布,如果把CCT模块横过来可能会更简洁一些
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Env1sage

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值