TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation (transformer + unet)

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation
在这里插入图片描述

  • 作者单位:JHU、UESTC、Stanford等
  • 代码:https://github.com/Beckschen/TransUNet
  • 论文:https://arxiv.org/pdf/2102.04306.pdf

Abstract

  1. U-Net缺陷:由于卷积运算的固有局部性,建模远程依赖存在局限性
  2. transformer:已经作为具有先天全局自我注意力机制的替代架构出现,但由于低层细节不足,可能导致定位能力有限
  3. 我们提出的TransUNet,同时具有transformers和U-Net的优点,作为医学图像分割一个强大的替代
  4. 一方面,transformers从卷积神经网络(CNN)特征映射中编码标记化的图像块,作为提取全局上下文的输入序列。另一方面,解码器对编码特征进行采样,然后将其与高分辨率的CNN特征相结合使定位更精确
  5. 实验:多器官分割和心脏分割

Introduction

  1. 与先前基于cnn的方法不同,transformer不仅在建模全局上下文方面非常强大,而且在大规模的预训练下,对下游任务表现出优越的可迁移性
  2. 我们发现,单纯的使用transformer(即使用transformer对标记化的图像块进行编码,然后直接将隐藏的特征表示上采样到完整分辨率的密集输出)不能产生令人满意的结果——缺乏详细定位信息(将输入视为一维序列,并专注于建模所有阶段的全局上下文)
  3. 我们提出了首个医学图像分割框架TransUNet,该框架从序列到序列预测的角度建立了自我注意力机制
  4. 为了补偿transformer带来的特征分辨率损失,TransUNet采用了CNN-Transformer的混合架构,以利用来自CNN特征的高分辨率信息和Transformers的全局上下文信息

Related Works

  1. Combining CNNs with self-attention mechanisms:non-local等
  2. Transformers:建立在ViT之上

Method

在这里插入图片描述

  1. Transformer as Encoder
    (1)Image Sequentialization(图像序列化):reshape成2D patch N= H * W / (P * P)
    (2)Patch Embedding:
    编码patch空间信息,学习特定的位置嵌入:
    在这里插入图片描述
  2. TransUNet
    为了弥补这种信息损失,TransUNet采用了CNN-Transformer混合结构作为编码器,并采用级联上采样器实现精确定位(直接上采用导致低层细节信息丢失)
    (1)CNN-Transformer Hybrid as Encoder:
    优势:(1)它允许我们在解码路径中利用中间高分辨率的CNN特征映射(2)CNN-Transformer编码器优于单纯Transformer作为编码器
    (2)Cascaded Upsampler:一个级联的上采样器

Experiments and Discussion

  1. Dataset and Evaluation
    (1)Synapse multi-organ segmentation dataset(30腹部CT扫描、3779张 / 8个器官)
    (2)Automated cardiac diagnosis challenge(左心室、右心室、心肌)
  2. Implementation Details
    (1)数据增强:random rotation and flipping
    (2)输入:224 x 224
    (3)patch size:16
  3. Comparison with State-of-the-arts在这里插入图片描述这是由于Transformers可以很好地捕捉高级语义,这有利于分类任务,但缺乏低层线索去分割细粒度的医学图像的良好形状
  4. Analytical Study
    (1)The Number of Skip-connections:
    在这里插入图片描述 (2)On the Influence of Input Resolution在这里插入图片描述(3)On the Influence of Patch Size/Sequence Length在这里插入图片描述
    (4)Model Scaling
    the hidden size D / number of layers / MLP size / number of heads在这里插入图片描述
  5. Visualizations
    (1)定性比较:在这里插入图片描述
> UNet和AttnUNet过分割 / 欠分割,这表明基于Transformer的模型,例如我们的TransUNet或R50-ViT-CUP在编码全局上下文和区分语义方面具有更强的能力
> TransUNet预测的假阳性更少,这表明TransUNet在抑制噪声预测方面比其他方法更有优势
> 在基于Transformer的模型中进行比较,可以观察到R50-ViT-CUP在边界和形状方面的预测比TransUNet的预测更粗糙
  1. Generalization to Other Datasets:其他数据验证,得出类似结果

Conclusion

  1. 在这篇论文中,我们提出了第一个研究Transformers在一般医学图像分割中的应用
  2. 为了充分发挥Transformers的能力,提出了TransUNet,它不仅将图像特征作为序列进行强全局上下文编码,而且通过u形混合结构设计,很好地利用了低层CNN特征
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值