arXiv:2404.16371v1
在辅助诊断和分割中使用多模态数据已成为当前研究的一个突出领域。然而,主要挑战之一是如何有效地融合多模态特征。当前的大多数方法侧重于多模态特征的集成,而忽略了不同模态特征之间的相关性和一致性,导致包含了潜在的无关信息。为了解决这个问题,我们引入了一种创新的多模态信息交叉变换器(MicFormer),它采用双流架构同时从每种模态中提取特征。利用交叉变换器,它从一种模态查询特征,并从另一种模态检索相应的响应,从而促进双峰特征之间的有效通信。此外,我们采用了可变形的Transformer架构来扩展搜索空间。我们在MM-WHS数据集上进行了实验,在CT-MRI多模态图像分割任务中,我们成功地将全心脏分割DICE评分提高到85.57,MIoU提高到75.51。与其他多模态分割技术相比,我们的方法分别以2.83和4.23的幅度表现出色。这证明了MicFormer在多模态任务中整合不同模态之间的相关信息的有效性。这些发现对多模态图像任务具有重要意义,我们相信MicFormer在各个领域具有更广泛的应用潜力。您可以在以下网址访问我们的方法https://github.com/fxxJuses/MICFormer.

图1。当前方法的局限性:(a)使用单峰网络形式进行多模态图像分割的图像融合的优先级可能会导致目标特征区域中的特征表示不准确。(b) 模态特征融合仅限于双流交叉注意力融合网络。查询和密钥匹配用于增强单峰特征表示,而无需添加额外信息。此外,技术术语缩写将在首次使用时进行解释。
虽然当前的深度学习网络在多模态分割任务上表现出值得称赞的性能,但大多数技术仍然主要采用单流方法进行特征对齐和融合。如图1所示,几种方法(包括TransUnet[9]、Swin Unet[10]和MedNeXt[11])将多模态图像对视为统一的图像输入。因此,这些方法完全依赖于网络的内部机制,如特征提取,来执行特征融合。这种方法未能在不同模式之间建立明确的对应关系,无意中在主要特征中引入了冗余信息。这种扰动在后续的特征提取阶段对细化这些特征提出了挑战。
Transformer及其衍生物[9,10,12,13,14]更关注自我关注和图像对之间缺乏相关性关注。此外,Swin Transformer[15]的设计受到在预定相应窗口内搜索的必要性的限制。鉴于多模态特征通常表现出更大程度的位置可变性,Swin Transformer架构可能不太适合广泛的跨窗口搜索。因此,开发一种针对多模态图像特征匹配的注意力机制可以大大提高多模态分割任务的效率。
本文提出了一种新型的多模态变压器——MicFormer。用于处理多模态任务中的特征融合和匹配。通过利用双流模型,MicFormer熟练地从两种模式中抽象出来。其功效的核心是可变形交叉注意力模块,该模块促进了两种模态特征之间的查询和交流。出现的架构确保了多层次、多模态语义特征的有效融合,在多模态分割精度方面取得了重大进展。简而言之,我们的工作的关键贡献是:1)我们提出了一种新的双流多模态特征融合变换器骨干网络。通过使用可变形的交叉注意力融合模块,多模态特征被连续匹配 2)我们提出了一种新的可变形交叉注意力模块,用于自动适应搜索空间。

2.1.U形并行特征网络
我们引入了一个为并发特征提取而设计的U形网络,从而促进了来自两种不同模态的信息的无缝集成。如图2所示,这两个并行网络遵循类似于U-net的架构结构,包括编码和解码组件。值得注意的是,传统的卷积运算被一个由交替应用的Swin Transformer和Cross Transformer组成的复合块所取代。Swin Transformer捕获全局和局部信息的内在能力被用于从每种模态中提取特征,然后在cross Transformer中进行跨模态特征查询。此查询过程用于增强单个模态中的特征表示。MicFormer采用并行通信网络来不断利用来自互补模态的信息,从而增强其自身模态中的特征表达能力。因此,得到的输出特征表现出多模态增强。
2.2.
如图2(b)所示,从并行子网发出的表示为Feature a和Feature b的特征在交叉变压器块内进行双向查询过程。这个过程需要交换顺序输入,从而相互增强各自的特征,这些特征随后被重新整合到原始输入管道中,以进行进一步的深度特征提取和交互。鉴于感受野的固有局限性,在单个实例中实现足够数量的匹配被证明是不可行的。因此,交叉变压器块采用涉及两个不同通信阶段的顺序执行策略。这种方法确保了我们的MicFormer不仅有助于大量的单峰特征提取,而且通过大量的交叉查询支持迭代特征细化。
2.3. 交叉注意
交叉注意机制的主要目标是通过利用注意机制的力量在两种模式之间建立相关性。这是通过计算F特征区域内的特征与F特征库内的特征之间的相关性来实现的。请参考图2以获取此过程的可视化表示。具体来说,我们利用F eatureb的编码向量作为查询和值,而F eaturea的编码向量则作为关键字。Query操作通过使用Key进行相关性计算,促进了F特征库中各个点与F特征区中对应点之间的相关性映射。随后,我们将Softmax计算应用于相关性图,表示为Attn,它为在F特征库中可能难以捕获但在F特征区域中更容易识别的特征分配更高的权重。例如,在CT特征的背景下,组织边缘的描绘往往是模糊和具有挑战性的,而MRI特征往往能提供更清晰的组织边缘区分。因此,在计算CT特征和MRI组织边缘之间的相似性时,将更高的相似性值分配给CT特征的边缘区域。这种战略重点使模型能够更加关注CT扫描中原始的、不太明显的组织边缘。最终,将Key与Softmax相关映射Attn进行矩阵相乘,确保F特征区域内更难在F特征库中识别的特征得到模型的高度关注。

2.4. 可变形算子
鉴于Swin Transformer依赖于固定的窗口形状,并且需要对跨模态特征查询进行更广泛和分散的探索,我们选择避免类似于Vision Transformer模型中的计算密集型全局搜索[16]。相反,我们引入了一种可变形操作,如图2所示,该操作使用深度卷积来建立局部邻域中体素位置之间的关系。此操作计算一个统一的变形趋势,称为f集,它会动态调整以适应所有特征。f集是一个具有三个通道的张量,表示特征图上一个点在x、y和z方向上的位移。重要的是,f集张量的形状与特征图的形状相匹配。在最后一步中,我们对F特征区域进行重新采样以获得变形特征图,并相应地调整其位置。此过程类似于对原始查询窗口应用相同的可变形操作。通过引入可变形算子,我们有效地将具有固定感受野的Swin Transformer转换为具有可变形感受野的等效模型。
3. EXPERIMENTS AND RESULTS
3.1. 数据集和评估指标
MMWHS 数据集[17] 由 20 个心脏 MRI 样本组成,并对 7 个结构进行了专家注释:左心室和右心室、左心房和右心房、肺动脉、心肌和主动脉。肺动脉、心肌和主动脉。在这个实验中,我们使用 SyN 算法[18] CTMRI 图像对进行对齐,并裁剪了相应的 ROI 区域。我们随机切割了整个数据集,训练集中有 16 对,测试集中有 4 个案例。此外,采用 Dice 相似系数 (Dice) 、平均交并比 (MIoU) 和 95% Hausdorff 距离 (HD95) 来评估模型性能。


我们对 MicFormer 与五种最先进的多模态分割算法进行了全面比较,即 VT-Unet [12]、Swin-Unet [10]、SwinUneter [13]、nnFormer [14] 和 MedNeXt [11],具体结果如表 1 和图 3 所示。根据表 1 中的数据,MicFormer 在 Dice 系数和 MIoU 方面都超过了所有其他算法。值得注意的是,我们的结果分别比 MedNeXt 提高了 2.83 分和 4.23 分,突显了我们细分模型的卓越性能。但是,值得一提的是,我们的方法在 HD95 指标方面略微落后于 MedNeXt。这种差异可归因于 MedNeXt 对 ConvNeXt 架构的利用[19],与 Transformer 架构相比,该架构对小数据集表现出更稳健的归纳偏置,并且对边界信息更敏感。尽管如此,我们的方法在 HD95 指标上优于所有其他算法,但 MedNeXt 除外。这项研究证实,与相同的 Transformer 架构相比,MicFormer 在两种模式中捕获分段表面信息方面表现出色。此外,我们在数据集上使用 nnFormer 进行涉及单模态和多模态场景的实验提供了进一步的证据,表明将 MRI 数据纳入 CT 分割过程显着提高了 CT 分割的准确性。如图 3 所示,各种方法在测试集上的性能是可视化的。我们的 MicFormer 在组织边缘和组织-组织连接处表现出卓越的鉴别力。在分割图的连通域中,我们的方法不显示 VT-Unet 、 SwinUnet 、 SwinUneter 和 nnFormer 等离散点。
935

被折叠的 条评论
为什么被折叠?



