MISSFormer: An Effective Medical Image Segmentation Transformer---文献阅读记录(仅作个人学习记录使用)

MISSFormer是一种新型的Transformer架构,专为2D医学图像分割设计。它引入了EnhancedTransformerBlock和EnhancedMix-FFN以增强特征表示,同时通过EnhancedTransformerContextBridge融合不同尺度的局部和全局信息。实验表明,这些创新提高了模型的分割性能,特别是在处理高分辨率图像和获取局部信息方面。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

文章地址

本文创新点

文章架构

消融实验


文章地址

paper:MISSFormer: An Effective Transformer for 2D Medical Image Segmentation | IEEE Journals & Magazine | IEEE Xplore

github:GitHub - ZhifangDeng/MISSFormer

本文创新点

1、 提出了基于U-shaped Transformer架构的MISSFormer用于医学图像分割;

2、设计了一种feed-forward network(Enhanced Mix-FFN),基于此创建了Enhanced Transformer Block以获得更具有代表性的特征;

3、提出了一种基于Enhanced Transformer Block的Enhanced Transformer Context Bridge,以获得局部和全局分层多尺度特征的关联。

文章架构

(a)MISSFormer (b)The Enhanced Transformer Block (c)The Simple Enhanced Mix-FFN (d)The Enhanced Mix-FFN (e)The Enhanced Transformer Context Bridge

 

一、整体架构

给定一张输入图像,MISSFormer首先将其送入overlapping patches,后将其馈送至多层次的编码器中产生多尺度特征。编码器中包含enhanced transformer blocks 和 patch merging layer,enhanced transformer blocks 以有限的计算复杂度来学习长程依赖和局部信息,patch merging layer用来生成下采样特征。

MISSFormer将生成的多尺度特征通过Enhanced Transformer Context Bridge来获得不同尺度特征的局部和全局信息的关联。在桥前,不同水平的特征在通道维度重置为一致,在空间维度被拉成向量,并在空间维度进行拼接馈送至h层深度的Enhanced Transformer Context Bridge,之后,恢复至原来的尺寸以获得判别性分层多尺度特征。

多尺度特征经过桥的跳跃链接进入解码器。解码器包含 Enhanced Transformer Blocks 和 patch expanding layer,patch expanding layer用来上采样特征。

二、Enhanced Transformer Block

Transformer Block架构缺点:(1)由于计算复杂度的问题,不适用于高分辨率图像;(2)缺乏获取局部信息的能力。基于此,提出Enhanced Transformer Block。

Enhanced Transformer Block由 LayerNorm, Efficient Self-Attention 和 Enhanced Mix-FFN组成:

Enhanced Transformer Block

 

1.Efficient Self-Attention:

在Efficient Self-Attention中,为进行有效的自我注意,它应用了空间缩减比R来降低空间分辨率。

K_(new) = Reshape(N/R,C*R) W(C*R,C) 

V_(new) = Reshape(N/R,C*R) W(C*R,C)

Attention(Q,new(K),new(V)) = SoftMax(\frac{Q*new(K)T}{dhead^{1/2}})new(V)

2.Enhanced Mix-FFN:

Simple Enhanced Mix-FFN (左)and Enhanced Mix-FFN(右)

 Simple Enhanced Mix-FFN:

y1 = LN(Conv(FC(x_{in})) + FC(x_{in}))

x_{out} = FC(GELU(y1)) + x_{in}

Enhanced Mix-FFN:

作者在原始的FFN网络中,嵌入了一个Enhanced Mix block,输入特征图xin,应用深度卷积获取上下文信息,然后递归跳跃连接。

y_{i} = LN(x_{in} + y_{i-1})

x_{out} = FC(GELU(y_{i})) + x_{in}

由于每个递归构造了不同的特征分布和一致性,因此具有更多的表达能力。

三、Enhanced Transformer Context Bridge

 The Enhanced Transformer Context Bridge

在这一部分中,作者借助MISSFormer的层次结构探索基于Transformer方法的多尺度特征融合。多级特征图是在编码器后获得的,编码器生成的多级特征 F1、F2、F3、F4,在空间维度上将它们展平化并重塑它们以保持彼此相同的通道深度,然后在扁平化的空间维度中将它们连接起来,将链接的特征馈送到Enhanced Transformer Block中,以构建长程依赖和局部信息的相关性。

token Fi = Reshape(Fi, [B, -1, C])

merge token = Concatenate(token Fi , dim = 1)

Atten token = Eff icient Atten(LN(merge token))

res token = LN(Atten token + merge token)

split token = Split(res token, dim = 1)

F F Ni = EnhancedM ix F F N(split token)

output = Concatenate(F F Ni , dim = 1) + res token

消融实验

一、Simple Enhanced Mix-FFN消融研究

Effectiveness of Simple Enhanced Mix-FFN

 

二、比较不同补充局部信息的方法

为了证明补充本地信息的必要性和所提方法的有效性,作者将其与其他补充本地信息的方法进行了比较。在保持U形结构不变的情况下,实验是通过用不同的模块替换Transformer block中的FFN来进行的,例如SegFormer中的Mix-FFN,LocalViT中的残余块和Simple MISSFormer中提出的增强型Mix-FFN。

supplement local information

 

三、Enhanced Mix-FFN中特征一致性的影响

提出的Enhanced Mix-FFN架构:

Enhanced Mix-FFN

 

Enhanced Mix-FFN中特征一致性的进一步影响:

Enhanced Mix-FFN中的递归跳跃链接的影响

 本文作者提出的MISSFormer_S,因缺乏多尺度特征集成,作者设计了消融实验来评估不同递归步骤引起的进一步一致性和分布的影响。结果随着递归步长的增加而改善,改善了特征不足的离散性。

四、Enhanced Transformer Context Bridge的影响

Impact of Enhance Transformer Context Bridge on recursive skip connection of MISSFormer.

观察到当步长为1时,该模型的DSC改善为2.26%,并且增长率随着递归步长的增加而逐渐降低,甚至为负。猜测在递归步和enhanced transformer context bridge之间或layer norm和模型容量之间有一个平衡,这将在未来的工作中讨论。

exploration of the bridge depth  、multi-scale information in MISSFormer

对于桥深度的探索,由于医学数据有限,4是MISSFormer中合适的深度。对于基于Transformer的分层特征,输入enhanced transformer context bridge的尺度特征越多,对长程依赖关系和局部信息的模型学习就越全面。

五、Enhanced Transformer Context Bridge中全局-局部信息的必要性研究

different modules in Transformer Context Bridge

MLP Context Bridge具有更准确的边缘预测,Mix FFN由于局部信息的补充而具有更准确的分割结果,而Enhanced Mix FFN由于具有判别性的全局和局部特征,获得了更好的分割性能和适度的边缘预测。

-----------------------------------------------------------------------------------------

关于代码中具体参数以及图像在MISSFormer中的维度变化正在补充...

如有理解错误之处欢迎指正。

### Gated Axial-Attention 方法在医学图像分割中的应用 #### 背景介绍 近年来,深度卷积神经网络 (CNNs) 已经成为医学图像分割的主要工具之一,在多个应用场景下表现出色。然而,由于其固有的局限性——难以捕捉长距离依赖关系,这限制了 CNN 的表现潜力[^3]。 #### Transformer 架构的优势 相比之下,Transformer 模型通过自注意力机制能够有效地处理序列数据间的远距离交互问题,从而提供更加丰富的特征表示能力。这种特性对于需要理解复杂空间模式的任务特别有用,比如医学影像分析[^4]。 #### MedT 中的 Gated Axial-Attention 设计理念 针对医学图像特有的挑战,即有限的数据量以及高分辨率需求等问题,研究人员提出了 Medical Transformer (MedT),它引入了一种新颖的设计——门控轴向注意力建模方式(Gated Axial-Attention)[^1]。该设计旨在解决标准 Transformers 需要大量标注样本才能良好工的难题,并适应医疗领域内小型化且高质量的要求。 具体来说: - **门控机制**:为了增强模型的学习效率并减少过拟合风险,MedT 在传统的 Self-Attention 层之上加入了门控单元。这些门允许网络动态调整哪些部分应该被重点关注或忽略掉,进而提高了对输入信号的选择性和鲁棒性。 - **轴向注意力**:不同于常规全连接式的多头自我关注层,这里采用了分片策略来降低计算成本的同时保持足够的感受野覆盖范围。这意味着每个像素只与其所在行/列上的其他位置建立联系,而不是整个图片平面内的每一个点都相互用。这种方法不简化了架构而且有助于更好地提取局部上下文信息。 ```python class GatedAxialAttention(nn.Module): def __init__(self, dim, num_heads=8, qkv_bias=False, attn_drop=0., proj_drop=0.): super().__init__() self.num_heads = num_heads head_dim = dim // num_heads self.scale = head_dim ** -0.5 # 定义查询、键和值线性变换矩阵 self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias) # 初始化门控参数 self.gate = nn.Parameter(torch.ones(num_heads)) def forward(self, x): B, H, W, C = x.shape qkv = self.qkv(x).reshape(B, H*W, 3, self.num_heads, C//self.num_heads).permute(2, 0, 3, 1, 4) q, k, v = qkv.unbind(0) # 计算注意力权重 attn = (q @ k.transpose(-2, -1)) * self.scale attn = F.softmax(attn, dim=-1) attn = self.attn_drop(attn) # 应用门控操 gated_attn = torch.sigmoid(self.gate.view(1,-1,1,1)) * attn # 更新后的加权求和过程 x = (gated_attn @ v).transpose(1, 2).reshape(B,H,W,C) return x ``` 上述代码片段展示了如何实现一个简单的带有门控功能的轴向注意力模块。其中 `gate` 参数用来控制各个头部的重要性程度;而实际运算过程中则是通过对原始 Attention Map 施加 Sigmoid 函数得到的概率值来进行调节[^2]。 #### LoGo 策略概述 除了改进核心组件外,研究者们还开发了一套名为 “Learning from Global and Local Patches” 或简称 LoGo 的训练方案。此方法鼓励模型同时考虑整体布局与细节差异两方面因素,进一步提升了最终预测精度。具体做法是在每次迭代期间交替呈现整幅图像及其随机裁剪的小区域给定网络学习,以此促进更全面的理解能力和泛化性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值