U-Net结构改进：双交叉注意力模块（DCA）

最新推荐文章于 2025-11-20 09:30:51 发布

原创

最新推荐文章于 2025-11-20 09:30:51 发布 · 2.3w 阅读

242 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #人工智能

本文介绍了一种新的双交叉注意力模块(DCA)，用于改进U-Net架构。DCA通过通道交叉注意力(CCA)和空间交叉注意力(SCA)捕捉多尺度编码器特征的长距离依赖，解决传统skip-connection导致的语义差距问题。该方法在保持较低参数量和复杂性的同时，增强了编码器和解码器之间的信息传递。

前言

本文由迈阿密大学的研究团队于2023年3月30日发表，提出了双交叉注意力模块（Dual Cross-Attention , DCA），其目标是在轻微的参数和复杂性增加的情况下改进U-Net及其变体，能够简单而有效地增强u-net结构中的跳跃连接（skip-connection）。

DCA通过按顺序捕获多尺度编码器特征之间的通道和空间依赖关系来解决编码器特征和解码器特征之间的语义差距。

首先，通道交叉注意（CCA）通过利用多尺度编码器特征的跨通道token的交叉注意提取全局通道依赖关系。
然后，空间交叉注意（SCA）模块进行交叉注意操作，来捕获跨空间令牌的空间依赖性。
最后，将这些细粒度的编码器特征上采样并连接到相应的解码器部分，形成skip-connection方案。

传统的U-Net改进方法，例如残差和循环连接等存在以下缺陷：

卷积的局部性无法捕获不同特征之间的长距离依赖关系。
skip-connection在简单地连接编码器和解码器特征时引起的语义差距。

受到顺序双重注意力和通道交叉注意力的启发，提出了双交叉注意力模块（DCA），有效提取多尺度编码器特征之间的通道和空间依赖，以解决语义差距问题。

1. 模型的特点

模型大致示意如下。DCA模块的结构不受编码器stage数量的影响，给定n+1个多尺度编码器stage，DCA将前n个stage的特征层作为输入，产生增强表示，并将它们连接到相应的n个解码器stage。

在这里插入图片描述

如下图所示，DCA可以分为两个主要阶段，三个步骤：

第一阶段由多尺度patch embedding模块组成，以获得编码器Token。
第二阶段，在这些编码器token上使用通道交叉注意（CCA）和空间交叉注意（SCA）模块来实现DCA，以捕获长距离依赖关系。
最后，使用层归一化和GeLU对这些token进行序列化和上采样，将它们连接到解码器对应部分。

在这里插入图片描述

2. 基于多尺度编码器的Patch Embedding

首先从n个多尺度编码器stage中提取Patch。

给定n个不同尺度的编码器stage， $E_i \in \mathbb R^{C_i \times \frac{H}{2^{i-1}} \times \frac{W}{2^{i-1}}}$ ，并且块大小 $P_i^S=\frac{P^S}{2^{i-1}}$ ，其中 $i=1,2,\ldots,n$ 。使用大小和步长为 $P_i^S$ 的平均池化来提取patch，并在展平的2维patch上使用 $\times 1$ 深度可分离卷积来进行映射。