【论文阅读笔记】MMMViT: Multiscale multimodal vision transformer for brain tumor segmentation with missing m

最新推荐文章于 2025-07-18 17:46:50 发布

寸先生的牛马庄园

最新推荐文章于 2025-07-18 17:46:50 发布

阅读量1.4k

点赞数 17

CC 4.0 BY-SA版权

分类专栏： MRI分割多模态与缺失模态深度学习文章标签：论文阅读笔记 transformer

本文链接：https://blog.youkuaiyun.com/cskywit/article/details/135099928

深度学习同时被 3 个专栏收录

46 篇文章

订阅专栏

多模态与缺失模态

32 篇文章

订阅专栏

MRI分割

10 篇文章

订阅专栏

本文介绍MMMViT，一种针对脑肿瘤分割中缺失模态问题的新方法，通过多尺度特征提取和模态间相关性建模，改进了mmFormer，实现在BraTS2018数据集上显著提高分割准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Qiu C, Song Y, Liu Y, et al. MMMViT: Multiscale multimodal vision transformer for brain tumor segmentation with missing modalities[J]. Biomedical Signal Processing and Control, 2024, 90: 105827.【代码开源】

【论文概述】

本文介绍了一种名为多尺度多模态视觉变换器（MMMViT）的新方法，用于解决脑肿瘤分割中缺失模态的问题。MMMViT 利用跨模态之间的相关性，将直接融合可用模态特定特征到共享潜在空间的过程分解为两个简单步骤，以降低学习共享潜在表示的难度。此外，该方法通过卷积编码器为每种模态提取的局部多尺度特征，输入到模态内部的变换器块中，从而隐式捕获全局多尺度特征，以适应不同大小的脑肿瘤。MMMViT 在 BraTS 2018 数据集上的验证结果表明，该方法不仅在大多数输入案例中优于现有的 mmFormer 方法，而且还提高了采用所有模态输入的变换器相关脑肿瘤分割方法的 Dice 相似系数（DSC）准确率。

【Introduction部分概述】

在本文的引言部分中，作者讨论了解决脑肿瘤分割中缺失模态问题的几种方法，具体包括利用生成模型合成缺失模态和学习共享的潜在空间表示。以下是这些方法的总结，包括每种方法的优缺点：

利用生成模型合成缺失模态：
- 优点：可以从可用的模态中合成缺失的模态，使得可以使用所有模态进行分割。
- 缺点：增加了额外的计算成本和人工中间步骤，且分割准确性极大地依赖于合成模态的质量。
学习共享的潜在空间表示：
- 子类1：直接融合可用模态特定特征：
  - 优点：直接从可用模态中学习共享表示，简化了处理流程。
  - 缺点：由于模态组合的多样性，直接学习共享表示并不容易。
- 子类2：特征解耦：
  - 优点：通过解耦每个模态的内容和外观代码，可以更精确地学习共享表示。
  - 缺点：需要为每个模态使用两个编码器来提取内容和外观代码，增加了计算成本。
- 子类3：域适应：
  - 优点：通过领域适应，学生网络（使用缺失模态数据）可以从教师网络（使用所有模态数据）学习共享表示。
  - 缺点：需要额外的教师网络来学习所有模态知识，增加了计算成本。
- 子类4：建立模态间的相关性：
  - 优点：通过建立模态间的相关性，可以简化直接融合模态特定特征的过程，降低学习共享表示的复杂性。
  - 缺点：相比直接融合方法，可能需要更复杂的模型设计来捕捉和利用模态间的相关性。

【MMMVIT组成结构】

MMMViT 是一个编码器-解码器结构，包含三个主要模块：
- 四个并行的模态特定内部模态编码器：这些编码器针对每种输入模态，分别提取局部多尺度特征。
- 模态不变的内部模态编码器：用于处理和融合来自不同模态的特征。
- 卷积解码器：用于重建和分割图像，其中包括与卷积编码器的跳跃连接，以提供详细信息。
工作流程：
- 局部多尺度特征提取：每个模态特定的内部模态编码器首先通过卷积编码器从输入模态中提取局部多尺度特征。
- 全局多尺度特征捕获：提取的局部多尺度特征被送入内部模态变换器块，以隐式地捕获全局多尺度特征，适应不同大小的脑肿瘤。
- 模拟缺失模态：通过随机伯努利指标与全局多尺度特征相乘，模拟缺失的输入模态。
- 特征融合和分割：模态不变的内部模态编码器融合来自不同模态的特征，卷积解码器则利用这些融合的特征进行图像重建和肿瘤分割

提出了与参考文献【15】（Brain Tumor Segmentation with Missing Modalities via Latent Multi-source Correlation Representation，MICCAI2020）的区别：在建模模态间的相关性时，文献[15]中每种模态的相关性表示是所有模态特定特征的加权和，其中权重是图像级别的（四个值）。而本文提出的方法中，每种模态的相关性表示也是所有模态特定特征的加权和，但权重是像素级别的（四个矩阵）。像素级别的权重能够产生更细粒度的相关性表示。此外，全局多尺度特征和Transformer块的优势在文献[15]中也没有体现。

读到这里，基本上可以看出，本文是结合参考文献15和mmformer(mmFormer: Multimodal Medical Transformer for Incomplete Multimodal Learning of Brain Tumor,MICCAI2022)

Segmentation)的所做：

【15】：图像级求和权重不够精细->使用像素级权重

【mmFormer】：没考虑模态间关联；没有利用全局多尺度特征，不能很好适应不同尺寸肿瘤->多尺度特征提取。->为降低多尺度特征提取的计算开销，使用CNN 提取局部特征，Transformer提取全局特征。

这里上一张mmFormer论文中的结构图，可以看出和本文的超级相似。

因此，前面几个部分看图说话可以知道就是Convolutional encoder提取各自模态特征（认为是局部特征），Intra-modal transformer block加强CNN提取到的各自模态特征（认为是全局特征），然后经过伯努利算子随机将某些模态的特征置位0，类似dropout方式模拟随机模态缺失，这里看与【15】和【mmformer】不同的地方：

Modality-invariant inter-modal encoder
- the Multimodal Correlation Modeling (MCM) block：名字起的响亮，看图就是将上一步的特征使用交叉注意力进行运算。
- Multimodal representation fusion
  
  这一步就是将上面的特征拼接后经过一个普通transformer实现特征融合。
  
  【数据集】
  BraTS 2018