用于处理缺失模态的可学习跨模态知识蒸馏方法
1. 引言
多模态学习在计算机视觉和医学图像分析领域已成为热门研究方向,其模态涵盖文本、音频、图像、视频和多传感器数据等多种媒体类型。该方法在机器人控制、视觉问答、视听语音识别以及医学诊断系统性能提升等方面都有应用。例如,磁共振成像(MRI)在脑肿瘤检测中依赖多种模态(Flair、T1、T1 对比增强即 T1c 和 T2),而非单一类型的 MRI 图像。
然而,大多数现有的多模态方法在训练和测试时需要完整的模态,这限制了它们在现实场景中的应用,因为在训练和测试过程中可能会缺失部分模态。缺失模态问题是多模态领域的重大挑战,促使研究人员开发解决该问题的方法。
目前已有多种方法尝试解决这一问题,如 HeMIS 模型使用统计特征作为嵌入来处理缺失模态;通过多模态变分自编码器(MVAE)扩展 HeMIS 以基于学习的统计特征进行预测;变分自编码器(VAE)用于在图像或特征域中生成其他模态的数据等。但这些方法大多未进行跨模态知识蒸馏,且忽略了不同模态的贡献偏差,未考虑保留最佳模态的知识。
为解决这一问题,我们提出了可学习跨模态知识蒸馏(LCKD)模型,该模型能够自动识别重要模态,并从这些模态中蒸馏知识,以帮助其他模态,从而解决缺失模态问题。其主要贡献如下:
- 提出 LCKD 模型来解决多模态学习中的缺失模态问题,该模型从蒸馏跨模态知识的角度设计,简单且有效,可最大化所有任务的性能。
- LCKD 方法能自动识别每个任务的重要模态,有助于跨模态知识蒸馏过程,并且可以在训练和测试时处理缺失模态。
2. 方法
2.1 整体架构
用 $M_l =
超级会员免费看
订阅专栏 解锁全文
1060

被折叠的 条评论
为什么被折叠?



