MICCAI2023论文多模态论文速读-2

文章介绍了H-DenseFormer在肿瘤分割中的应用,结合CNN和Transformer的优势;另外两篇文章探讨了多模态学习在视觉预测和病理诊断中的新方法,如使用掩码自注意力和知识蒸馏来处理缺失模态和提高准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

6.H-DenseFormer: An Efficient Hybrid Densely Connected Transformer for Multimodal Tumor Segmentation

Shi J, Kan H, Ruan S, et al. H-DenseFormer: An Efficient Hybrid Densely Connected Transformer for Multimodal Tumor Segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 692-702.

【开放源码】

本文提出了一种名为H-DenseFormer的混合密集连接网络,用于多模态医学图像的肿瘤分割。该网络结合了卷积神经网络(CNN)的表示能力和Transformer结构,通过集成一个基于Transformer的多路径并行嵌入(MPE)模块,可以以任意数量的模态作为输入来从多个模态中提取融合特征。这解决了现有方法在表示能力、特定模态数量和高计算复杂性方面的限制。本文还提出了一种轻量级的多模态融合特征提取方法,通过设计Densely Connected Transformer(DCT)块替代标准Transformer块,降低计算复杂度。在HECK-TOR21和PI-CAI22两个公开多模态数据集上进行了实验,结果显示该方法在保持性能的同时降低了计算复杂度。

image-20231103091409055

MPE:在MPE模块中,每个模态都有一条独立的编码路径,包括一个patch embedding模块、一系列堆叠的Densely Connected Transformer(DCT)模块和一个residual连接。这些独立的编码路径在多模态特征提取阶段并行运行。MPE模块通过这种方式从不同模态中提取特征,然后将这些特征进行融合,以获得更全面的多模态表示。

DCT:Densely Connected Transformer(DCT)在标准Transformer结构的基础上,将多个Transformer编码器(或解码器)的输出(或输入)与每个Transformer层紧密连接起来。这使得模型能够充分利用更多的上下文信息,增强了模型的表示能力。

损失函数:为了缓解像素不平衡问题,采用Focal loss和Dice loss的组合损耗作为优化目标,定义如下:

ζ F D = 1 − 2 ∑ t = 1 N p t q t ∑ t = 1 N p t + q t + 1 N ∑ t = 1 N − ( 1 − p t ) γ log ⁡ ( p t ) \zeta_{F D}=1-\frac{2 \sum_{t=1}^{N} p_{t} q_{t}}{\sum_{t=1}^{N} p_{t}+q_{t}}+\frac{1}{N} \sum_{t=1}^{N}-\left(1-p_{t}\right)^{\gamma} \log \left(p_{t}\right) ζFD=1t=1Npt+qt2t=1Nptqt+N1t=1N(1pt)γlog(pt)

7.Incomplete Multimodal Learning for Visual Acuity Prediction After Cataract Surgery Using Masked Self-Attention

Zhou Q, Zou H, Jiang H, et al. Incomplete Multimodal Learning for Visual Acuity Prediction After Cataract Surgery Using Masked Self-Attention[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 735-744.

[即将开放源码]

本文提出了一种全新的框架,使用掩码自注意力机制,以预测白内障患者的手术后视力。该框架将术前图像和患者人口统计数据作为输入,利用多模态信息,相比基于单模态数据的方法具有更高的准确性。它首先使用高效的Transformer来提取多模态特征,然后利用掩码自注意力机制进一步处理特征,考虑不同模态之间的依赖关系。实验结果表明,该方法在预测准确性方面具有显著优势。此外,为了解决数据缺失问题,该框架引入了一种注意力掩码机制,提高模型的鲁棒性。该方法首先将不同模态的特征进行融合,然后使用注意力融合网络将多模态信息融合在一起。实验结果表明,该方法优于其他方法,取得了平均绝对误差0.122 logMAR的成绩,预测误差在±0.10 logMAR以内的百分比为94.3%。

image-20231103093034554

对于**Incomplete Multimodal Learning.**文章采用mask attenion方式:图中的白色单元格代表值为0,灰色单元格代表值为负无穷。注意力掩码M是一个矩阵,对于矩阵中的每个元素,如果对应的交互应该被包含,则该元素值为0,否则为负无穷。通过添加负无穷,softmax 的结果将非常接近于0。通过应用掩码,可以避免不必要的交互,从而提高模型的性能。

image-20231103093214106

8.Learnable Cross-modal Knowledge Distillation for Multi-modal Learning with Missing Modality

Wang H, Ma C, Zhang J, et al. Learnable Cross-modal Knowledge Distillation for Multi-modal Learning with Missing Modality[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 216-226.

缺失模态的问题在多模态模型中处理既关键又重要。在多模式任务中,某些模式比其他模式的贡献更大是常见的,如果这些重要的模式缺失,模型性能会显著下降。这一事实在目前的多模态方法中尚未得到充分的研究,目前的多模态方法是通过特征重构或盲特征聚合来恢复缺失模态的表示,而不是从表现最好的模态中提取有用的信息。本文提出了一种可学习的交叉模态知识精馏(LCKD)模型,从交叉模态的角度自适应地识别重要的模态,并从中提取知识以帮助其他模态解决模态缺失问题。方法引入了一个教师选举过程,根据教师在特定任务中的单一模式表现来选择最“合格”的教师。然后,在每个任务的教师和学生模式之间进行跨模态知识蒸馏,将模型参数推到一个对所有任务都有利的点。因此,即使在测试过程中,某些任务的教师模式缺失,可用的学生模式也可以根据从他们自动选出的教师模式中学到的知识很好地完成任务。在脑瘤分割数据集2018 (BraTS2018)上的实验表明,LCKD比其他方法有相当大的优势,提高了最先进的性能,提高了3.61%的增强肿瘤,5.99%的肿瘤核心,3.76%的整个肿瘤分割Dice score。

image-20231103094514532

对于可用的模态,每一对师生模式之间进行知识蒸馏。而对于缺失的部分则由编码器处理生成特征,并将这些特征串接在一起,由解码器使用这些特征产生分割。教师是通过一个验证过程选出表现最好的教师的。交叉模态蒸馏是通过将可用的学生特征近似于可用的教师特征来完成的。缺失模式的特征是通过平均其他模式的特征来生成的。

代码未开源,如何选举教师,如何生成缺失模态说的较含糊,这里不做进一步解读。

9.Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answerin

Li P, Liu G, He J, et al. Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 374-383.

【代码开源】

本文提出了一种新型的自监督学习方法,利用医学图像caption数据集学习单模态和多模态特征表示。该方法采用掩码语言建模和图像文本匹配作为预训练目标,然后将预训练模型迁移到下游医学视觉问答任务。实验表明,该方法在三个公开的医学视觉问答数据集上实现了最先进的性能,并取得了显著的性能提升。
此外,本文还对不同组件的有效性进行了全面分析,并研究了不同的预训练设置。结果表明,通过对比学习增强了对图像和字幕之间相关性的理解,同时学习单模态和多模态特征,能够提高医学图像理解与解释的精度和效率。
其次,本文还提出了一种新的图像和文本特征对齐方法,通过不同视角的图像 momentum contrasts 学习单模态图像编码器,以及通过 momentum contrasts 学习单模态文本编码器。此外,还引入了一种新的掩码图像策略,随机对图像的补丁进行 25% 的掩码,作为数据增强技术,以进一步提高模型的性能。这种方法在三个医学视觉问答数据集上取得了新的基准成绩,比现有方法提高了 2.2%、14.7% 和 1.7%。
最后,通过 Grad-CAM 进行定性分析,验证模型在回答问题时是否关注了相应的图像部分。结果表明,该模型能够关注到与问题相关的图像部分,从而验证了模型的正确性和有效性。

image-20231103103512374

10.Multi-modal Pathological Pre-training via Masked Autoencoders for Breast Cancer Diagnosis

Lu M, Wang T, Xia Y. Multi-modal Pathological Pre-training via Masked Autoencoders for Breast Cancer Diagnosis[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 457-466.

本文提出了一种基于病理图像的多模态预训练模型,用于乳腺癌(BC)诊断。提出的预训练模型包含三个模块:(1)模态融合编码器,(2)混合注意力,和(3)模态特定解码器。预训练模型可以在多个相关任务(IHC重建和IHC分类)上执行。在两个公开数据集(HEROHE挑战和BCI挑战)上的实验显示出最先进的结果。

image-20231113090502725

image-20231113090948693

使用类似MAE的方式预训练。两个下游任务,图像生成和类别预测:

image-20231113091118273

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值