TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation 读论文笔记

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

Abstract

当前方法

类似U-net的U形结构已经成为医学图像分割任务的约定俗成的标准,并取得了极大的成功。

U-net的缺陷

由于卷积运算的固有局部性,U-net在显示建模远程依赖性方面存在局限性。

缺陷解决方案-Transformer

为序列到序列预测而设计的Transformer,已经作为具有天生全局自我注意机制的替代架构出现,但由于低层细节不足,可能导致有限的定位能力。

提出TransUnet

优势:

  1. 它同时具有变形金刚和U-Net的优点。
    和U-Net的优点,作为医学图像分割的一个强有力的选择。一方面,Transformer对来自卷积神经网络(CNN)特征图的标记化图像补丁进行编码,作为提取全局背景的输入序列。
    -解决了Unet的局部性特征提取问题
  2. 另一方面,解码器对编码后的特征进行升采样,然后与高分辨率的CNN特征图相结合,以实现精确的定位。
    -解决了底层细节不足导致的定位能力不足问题。
    作者认为,Transformers作为一项新技术可以作为医学图像分割任务的强大的编码器,与U-net结合,通过回复局部空间信息俩增强更精细的细节,解决Transformers获取底层信息不足的问题;通过全局注意力提升模型获取全局信息的能力。

TransUNet在不同的医学应用中取得了优于各种竞争方法的性能,包括多器官分割和心脏分割。

Introduction

当前医学图像分割的主流模型:卷积神经网络已经在分割中占据主导地位。在卷积神经网络的各种各样的变体中,类似于U形结构的U-net网络已经成为图像分割任务当中的基线模型。

卷积神经网络的局限性:无法建立清晰的远程关系。(由于卷积操作的内在局部性)

局限性导致的问题:因此,对于质地、形状和大小方面存在较大患者间差异的目标结构(不同地区的页岩图片存在较大的地区间差异),通常识别能力较弱。

为了克服这种问题,现有的方法提出的构想:基于CNN获取的特征来构建注意力机制。

新构想的原因:专为序列到序列预测设计的Transformers结构已经成为可替代的架构,该结构完全摒弃了卷积算子,只依靠注意力机制。
与之前基于CNN的方法不同,Transformers不仅在全局语境建模方面很强大,而且在大规模的预训练下对下游任务表现出卓越的可转移性。这种成功已经在机器翻译和自然语言处理(NLP)领域得到广泛见证[3,14]。最近,在各种图像识别任务中的尝试也达到甚至超过了最先进的性能[4,18]。

结果:经验结果表明,与之前基于CNN的自我关注方法相比,我们基于变形器的架构提供了一种更好的方式来利用自我关注。此外,我们注意到,对低层次特征的更深入整合通常会导致更好的分割精度。

Related work

据我们所知,所提出的TransUNet是第一个基于变形器的医学图像分割框架,它建立在非常成功的ViT之上。

3 Method

与现有的方法不同,我们的方法通过使用变形金刚将自我注意机制引入编码器的设计。在第3.1节中,我们将首先介绍如何直接应用变换器对分解的图像斑块的特征表示进行编码。

然后,第3.2节将阐述TransUNet的整体框架。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五阿哥爱跳舞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值