arxiv Jan22 ,2014
【核心思想】
提出了一种新型的用于医学图像分割的深度学习模型MOSformer。它主要通过双编码器设计和动量更新方法来提高2.5D医学图像分割模型的性能,其中一个编码器使用动量更新保持切片表示的一致性。此外,它还引入了一种名为IF-Swin的变换器模块,通过在切片维度扩展窗口自注意力机制,实现多尺度特征图之间的有效融合。
【网络结构与关键特点】

-
双编码器设计:
- 设计动机:传统的2.5D基于单编码器的模型在处理输入切片时,往往无法有效区分每个切片的特征。这是因为所有切片都通过同一个编码器处理,导致它们具有相同的特征分布,从而限制了模型捕捉目标切片特征的能力。一个简单的想法是使用两个独立更新的编码器分别处理邻近切片和目标切片。然而,这种方法在作者实验中取得了次优的性能,作者认为是由于两个独立更新的编码器降低了切片特征的一致性所导致的,因此引出了动量更新方式保持一致性。
-
动量更新机制:在双编码器设计中,一个编码器( θ 1 \theta_1 θ