26、用于处理缺失模态的可学习跨模态知识蒸馏方法

最新推荐文章于 2025-11-18 02:26:20 发布

雪落无声360

最新推荐文章于 2025-11-18 02:26:20 发布

阅读量61

点赞数

CC 4.0 BY-SA版权

分类专栏：医学影像与计算机辅助干预前沿文章标签：多模态学习缺失模态跨模态知识蒸馏

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/149389083

医学影像与计算机辅助干预前沿专栏收录该内容

87 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

用于处理缺失模态的可学习跨模态知识蒸馏方法

1. 引言

多模态学习在计算机视觉和医学图像分析领域已成为热门研究方向，其模态涵盖文本、音频、图像、视频和多传感器数据等多种媒体类型。该方法在机器人控制、视觉问答、视听语音识别以及医学诊断系统性能提升等方面都有应用。例如，磁共振成像（MRI）在脑肿瘤检测中依赖多种模态（Flair、T1、T1 对比增强即 T1c 和 T2），而非单一类型的 MRI 图像。

然而，大多数现有的多模态方法在训练和测试时需要完整的模态，这限制了它们在现实场景中的应用，因为在训练和测试过程中可能会缺失部分模态。缺失模态问题是多模态领域的重大挑战，促使研究人员开发解决该问题的方法。

目前已有多种方法尝试解决这一问题，如 HeMIS 模型使用统计特征作为嵌入来处理缺失模态；通过多模态变分自编码器（MVAE）扩展 HeMIS 以基于学习的统计特征进行预测；变分自编码器（VAE）用于在图像或特征域中生成其他模态的数据等。但这些方法大多未进行跨模态知识蒸馏，且忽略了不同模态的贡献偏差，未考虑保留最佳模态的知识。

为解决这一问题，我们提出了可学习跨模态知识蒸馏（LCKD）模型，该模型能够自动识别重要模态，并从这些模态中蒸馏知识，以帮助其他模态，从而解决缺失模态问题。其主要贡献如下：
- 提出 LCKD 模型来解决多模态学习中的缺失模态问题，该模型从蒸馏跨模态知识的角度设计，简单且有效，可最大化所有任务的性能。
- LCKD 方法能自动识别每个任务的重要模态，有助于跨模态知识蒸馏过程，并且可以在训练和测试时处理缺失模态。