MISSFormer: An Effective Medical Image Segmentation Transformer---文献阅读记录（仅作个人学习记录使用）

最新推荐文章于 2025-03-10 22:01:28 发布

原创最新推荐文章于 2025-03-10 22:01:28 发布 · 2.6k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

医学图像分割论文阅读专栏收录该内容

1 篇文章

订阅专栏

MISSFormer是一种新型的Transformer架构，专为2D医学图像分割设计。它引入了EnhancedTransformerBlock和EnhancedMix-FFN以增强特征表示，同时通过EnhancedTransformerContextBridge融合不同尺度的局部和全局信息。实验表明，这些创新提高了模型的分割性能，特别是在处理高分辨率图像和获取局部信息方面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章地址

paper:MISSFormer: An Effective Transformer for 2D Medical Image Segmentation | IEEE Journals & Magazine | IEEE Xplore

github:GitHub - ZhifangDeng/MISSFormer

本文创新点

1、提出了基于U-shaped Transformer架构的MISSFormer用于医学图像分割；

2、设计了一种feed-forward network（Enhanced Mix-FFN），基于此创建了Enhanced Transformer Block以获得更具有代表性的特征；

3、提出了一种基于Enhanced Transformer Block的Enhanced Transformer Context Bridge，以获得局部和全局分层多尺度特征的关联。

文章架构

（a）MISSFormer （b）The Enhanced Transformer Block （c）The Simple Enhanced Mix-FFN （d）The Enhanced Mix-FFN （e）The Enhanced Transformer Context Bridge

一、整体架构

给定一张输入图像，MISSFormer首先将其送入overlapping patches，后将其馈送至多层次的编码器中产生多尺度特征。编码器中包含enhanced transformer blocks 和 patch merging layer，enhanced transformer blocks 以有限的计算复杂度来学习长程依赖和局部信息，patch merging layer用来生成下采样特征。

MISSFormer将生成的多尺度特征通过Enhanced Transformer Context Bridge来获得不同尺度特征的局部和全局信息的关联。在桥前，不同水平的特征在通道维度重置为一致，在空间维度被拉成向量，并在空间维度进行拼接馈送至h层深度的Enhanced Transformer Context Bridge，之后，恢复至原来的尺寸以获得判别性分层多尺度特征。

多尺度特征经过桥的跳跃链接进入解码器。解码器包含 Enhanced Transformer Blocks 和 patch expanding layer，patch expanding layer用来上采样特征。

二、Enhanced Transformer Block

Transformer Block架构缺点：（1）由于计算复杂度的问题，不适用于高分辨率图像；（2）缺乏获取局部信息的能力。基于此，提出Enhanced Transformer Block。

Enhanced Transformer Block由 LayerNorm, Efficient Self-Attention 和 Enhanced Mix-FFN组成：

1.Efficient Self-Attention：

在Efficient Self-Attention中，为进行有效的自我注意，它应用了空间缩减比R来降低空间分辨率。

$K_(new) = Reshape(N/R,C*R) W(C*R,C)$

$V_(new) = Reshape(N/R,C*R) W(C*R,C)$

$Attention(Q,new(K),new(V)) = SoftMax(\frac{Q*new(K)T}{dhead^{1/2}})new(V)$

2.Enhanced Mix-FFN:

Simple Enhanced Mix-FFN：

$y1 = LN(Conv(FC(x_{in})) + FC(x_{in}))$

$x_{out} = FC(GELU(y1)) + x_{in}$

Enhanced Mix-FFN：

作者在原始的FFN网络中，嵌入了一个Enhanced Mix block，输入特征图xin，应用深度卷积获取上下文信息，然后递归跳跃连接。

$y_{i} = LN(x_{in} + y_{i-1})$

$x_{out} = FC(GELU(y_{i})) + x_{in}$

由于每个递归构造了不同的特征分布和一致性，因此具有更多的表达能力。

三、Enhanced Transformer Context Bridge

在这一部分中，作者借助MISSFormer的层次结构探索基于Transformer方法的多尺度特征融合。多级特征图是在编码器后获得的，编码器生成的多级特征 F1、F2、F3、F4，在空间维度上将它们展平化并重塑它们以保持彼此相同的通道深度，然后在扁平化的空间维度中将它们连接起来，将链接的特征馈送到Enhanced Transformer Block中，以构建长程依赖和局部信息的相关性。

$token Fi = Reshape(Fi, [B, -1, C])$

$merge token = Concatenate(token Fi , dim = 1)$

$Atten token = Eff icient Atten(LN(merge token))$

$res token = LN(Atten token + merge token)$

$split token = Split(res token, dim = 1)$

$F F Ni = EnhancedM ix F F N(split token)$

$output = Concatenate(F F Ni , dim = 1) + res token$

消融实验

一、Simple Enhanced Mix-FFN消融研究

Effectiveness of Simple Enhanced Mix-FFN

二、比较不同补充局部信息的方法

为了证明补充本地信息的必要性和所提方法的有效性，作者将其与其他补充本地信息的方法进行了比较。在保持U形结构不变的情况下，实验是通过用不同的模块替换Transformer block中的FFN来进行的，例如SegFormer中的Mix-FFN，LocalViT中的残余块和Simple MISSFormer中提出的增强型Mix-FFN。