TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

最新推荐文章于 2025-11-02 22:13:22 发布

原创

最新推荐文章于 2025-11-02 22:13:22 发布 · 795 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #算法 #机器学习 #深度学习 #python

本文介绍了一种名为TransUNet的方法，它通过结合卷积神经网络(CNN)和自注意力机制(Transformer)来改善图像分割。作者发现直接的Transformer编码不足以捕捉细节，于是提出将CNN用于低级特征提取，再利用Transformer捕获全局上下文。实验表明，混合结构和级联上采样器有效弥补了细节丢失，且在高分辨率图像上性能显著提升。

paper
code

1 Method

1.作者发现直接将输入图像直接使用Transformer进行编码，并且将得到的特征图直接上采样到全分辨率的密集输出，无法产生令人满意的结果。
2. 原因为：Transformers将输入视为1D序列，并且只关注在所有阶段建模的全局上下文信息，因此会缺乏详细的局部信息。并且，这些信息无法通过直接上采样到完整分辨率来恢复，因此会导致粗略的分割结果。
3. TransUNet采用混合CNN-Transformer结构，充分利用了来自CNN特征的详细高分辨率空间信息以及来自Transformer的全局上下文信息。
在这里插入图片描述
输入图像 $\in \mathbb{R}^{H \times W \times C}$ ，我们的目标为预测尺寸为 $\times W$ 的像素级标签图。