文章汉化系列目录
摘要
这段文字讨论了在多模态模型训练和测试过程中,由于传感器限制、成本约束、隐私问题或数据丢失,某些数据模态可能会缺失,这会对模型性能产生负面影响。为了解决这一问题,专门设计的多模态学习技术可以处理缺失模态,从而保证即使某些模态不可用时,模型仍能保持鲁棒性。这篇综述回顾了多模态学习中的缺失模态问题(Multimodal Learning with Missing Modality, MLMM)的最新进展,重点介绍了深度学习方法。它提供了第一篇全面的综述,涵盖了MLMM与标准多模态学习设置之间的动机和区别,随后详细分析了当前的方法、应用和数据集,并总结了挑战和未来的发展方向。
缺少模态的深度多模态学习:CCS概念综述:·计算方法→人工智能;机器学习;计算机视觉;自然语言处理。
附加关键词和短语:多模态学习,深度学习,表征学习,多模态融合,音频信号处理,多媒体,模态缺失,不完美模态,不完整模态
1 引言
多模态学习已成为人工智能(AI)领域中的一个关键方向。它专注于联合分析多种数据模态,包括视觉、文本、听觉和传感器信息。这种方法类似于人类将多种感官信息结合起来,以更好地理解和与环境互动的能力。现代多模态模型利用深度学习的强大泛化能力,揭示了单模态系统可能无法检测到的复杂模式和关系。这一能力正在推动多个领域的研究进展 [8, 56, 156]。近期的多模态学习综述突显了多模态方法的显著影响,展示了其提升性能的能力,并使更复杂的AI应用成为可能 [6, 216]。
然而,现实世界中的多模态系统经常面临必须处理某些数据模态缺失或不完整的挑战。这种情况的发生原因多种多样,如传感器故障、硬件限制、隐私问题、环境干扰以及数据传输问题。近年来,越来越多的研究者对这一领域表现出浓厚的兴趣,这一点可以从图1a中的条形图中看出。如图1b所示,在一个三模态的场景中,数据样本可以分为全模态(包含所有三种模态的信息)或缺失模态(缺少一种或多种模态的数据)。这些问题可能在从数据采集到部署的任何阶段出现,显著影响模型性能。例如,早期的情感计算研究者[29, 144]发现,在采集面部和音频数据时,由于麦克风噪音过大或摄像头被遮挡,某些图像或音频样本变得无效。这迫使他们提出了能够处理缺失模态的视听模型,用以识别人的情感状态。在医疗AI领域,隐私问题以及在手术或侵入性治疗过程中获取某些数据模态的困难,常常导致多模态数据集中的模态缺失[214]。类似地,在太空探索中,NASA的“灵巧号”火星直升机[34]在因火星极端温度变化导致其倾斜仪故障时,也面临了缺失模态的挑战。为了解决这一问题,NASA应用了一个软件补丁,修改了导航算法的初始化过程[163]。此外,不同版本或品牌设备传感器的固有结构或定量异质性也可能导致可用模态的差异。这要求模型能够处理在实际应用中具有不同类型模态的输入。现实世界场景的不可预测性和数据源的多样性进一步加剧了这一挑战。因此,开发能够在缺失模态的情况下有效执行的稳健多模态系统,已成为该领域的一个关键研究方向。
Fig. 1.(a)近10年来关于模态缺失的深度多模态学习论文的趋势。随着时间的推移,出版物的数量不断增加,并受到社会各界的广泛关注。(b)具有完整和缺失模态样本的三模态场景的描述。在本文的所有图中,我们将“模态”缩写为“Mod”,并使用褪色的虚线框表示缺失的模态/模块。
当数据集中存在一些缺失模态样本时,删除缺失模态样本是一种常见且简单的多模态数据预处理策略。然而,这种方法会浪费缺失模态样本中包含的有价值信息,并且无法帮助模型在测试时处理缺失模态样本,因为它只能作为训练中的“临时”解决方案。这促使许多研究者提出了许多针对缺失模态样本的多模态学习方法。在本综述中,我们将处理多模态学习中缺失模态的挑战称为“缺失模态问题”(missing modality problem)。我们将解决这一问题的方法称为“缺失模态的多模态学习”(MLMM)。这些方法与传统的使用完整模态集的设置相对立,我们将其称为“完整模态的多模态学习”(MLFM)。具体来说,在MLFM任务中,给定一个N模态的数据集,通常需要训练和测试一个能够处理和融合所有N个模态进行决策的模型。与此不同,MLMM任务由于数据采集的限制或部署环境的约束,在训练或测试过程中可能会使用少于N个模态。MLMM的主要挑战在于如何在训练和测试过程中动态且稳健地处理和融合来自任何数量可用模态的信息,同时保持与使用完整模态样本时相当的性能。
本综述涵盖了缺失模态多模态学习(MLMM)领域的最新进展及其在多个领域中的应用,包括信息检索 [112]、遥感 [184]、机器人视觉 [42]、医学诊断 [5, 145, 225]、情感分析 [171] 和多视角聚类 [17]。我们还介绍了一个细粒度的MLMM方法、应用场景及对应数据集的分类法。本文的主要贡献包括:
(1) 对MLMM方法在不同领域的全面综述,并附有相关数据集的广泛汇编,突出了MLMM在解决现实世界挑战中的多样性。
(2) 提出了一种新的细粒度MLMM方法学分类法,基于多模态集成阶段和缺失模态恢复策略的多维分类框架。
(3) 对当前MLMM方法、其面临的挑战以及未来研究方向进行了深入分析,并结合提出的分类框架进行背景说明。
论文收集:在我们的文献检索方法中,主要通过Google Scholar以及人工智能、机器学习、计算机视觉、自然语言处理、音频信号处理、数据挖掘、多媒体、医学影像和遥感领域的主要会议和期刊收集论文。收集的论文来源于但不限于顶级会议(例如:AAAI、IJCAI、NeurIPS、ICLR、ICML、CVPR、ICCV、ECCV、ACL、EMNLP、KDD、ACM MM、MICCAI、ICASSP)和期刊(例如:TPAMI、TIP、TMI、TMM、JMLR)。有关这些会议和期刊的完整名称,请参阅附录A中的补充材料。我们共收集了2012年至2024年10月期间的315篇重要论文。我们的检索策略涉及使用“incomplete”(不完整)、“missing”(缺失)、“partial”(部分)、“absent”(缺席)和“imperfect”(不完美)等关键词,结合“multimodal learning”(多模态学习)、“deep learning”(深度学习)、“representation learning”(表征学习)、“multi-view learning”(多视角学习)和“neural networks”(神经网络)等术语。
调查组织: 首先,我们在第1节中解释了本次调查的背景和动机。在第2节中,我们介绍了我们的分类法,并从方法论的角度对现有的深度多模态缺失模式学习(MLMM)方法进行了分类,详细描述了其两个方面和四种类型(见图2)。接下来的第3节和第4节分别从模型数据处理和策略设计的角度介绍了各种方法。然后,在第6节中,我们总结了当前的应用场景及其相应的使用数据集。在第7节中,我们讨论了尚未解决的挑战和未来的研究方向。最后,我们在第8节中给出了关于深度MLMM探索的结论。
图2。我们的分类学的深度多模态学习与缺失模态的方法。我们将现有的方法分为两个方面:数据处理和策略设计。数据处理:我们区分了模态插补(在模态数据水平上处理)和以表示为中心的模型(在数据表示水平上处理)。战略设计:我们区分了以架构为中心的模型(模型架构调整)和模型组合(外部组合多个模型)。“MLLM”:多模态大型语言模型。
2 方法论分类:概述
我们从两个关键方面回顾了当前的深度多模态缺失模式学习(MLMM)方法:数据处理和策略设计。
2.1 数据处理方面
专注于探索模型数据处理方面的方法可以根据缺失模态处理发生的层级划分为“模态填充”和“基于表示的模型”,分别对应在模态数据层级或数据表示层级进行缺失模态处理。
(1) 模态填充:该方法操作在模态数据层级,通过合成[14, 26, 130, 158, 196, 196](模态合成方法)或生成[3, 22, 111, 166, 181, 213]缺失的模态(模态生成方法)来填补缺失的信息。这些方法的核心思想是,如果能够准确地填补缺失的模态,那么下游任务就可以继续进行,就像“完整”模态可用一样。
(2) 基于表示的模型:这些模型旨在在表示层级上解决缺失模态的问题。在一些情况下,协调表示方法[90, 109, 176]会对不同模态的表示施加特定的约束,帮助对不同模态在语义空间中的表示进行对齐,从而使得即使面对缺失的模态,模型仍然能够有效训练。其他基于表示的方法则是通过使用现有数据生成缺失模态的表示[53, 88, 111, 129, 218],或者通过结合现有模态的表示[32, 158, 215, 220, 222, 224]来填补空缺。
2.2 策略设计方面
探索策略设计方面的方法基于那些能够通过灵活调整模型架构(内部模型架构调整)和多模型组合(外部模型组合),在训练和测试过程中动态适应不同缺失模态情况的模型。我们将这些方法命名为架构聚焦模型和模型组合。
(1) 架构聚焦模型:通过设计灵活的模型架构来处理缺失模态,这些架构能够适应训练或推理过程中可用模态的数量变化。这里的一个关键技术是基于注意力机制[36, 38, 61, 123, 135, 136, 198],它动态调整模态的融合和处理,使模型能够处理任意数量的输入模态。另一种方法是基于知识蒸馏[23, 142, 150, 172, 178, 179, 214],模型通过从完整模态模型向处理不完全数据的模型传递知识,或者在模型内部的不同分支之间进行蒸馏,从而适应缺失的模态。此外,基于图学习的方法[89, 112, 208, 217]利用模态之间的自然关系,使用图形动态地融合和处理可用的模态,同时弥补缺失的模态。最后,MLLMs(多模态长序列模型)[78, 189, 207]也在这一类别中发挥着重要作用,因为它们能够处理长时序的上下文并作为特征处理器,能够接受并处理来自任意数量模态的表示。这些架构策略共同使得模型能够在处理不完整的多模态输入时,保持良好的性能。
(2) 模型组合:通过采用利用多个模型或专门训练技术的策略来解决缺失模态问题。一种方法是使用针对不同模态情况的专用训练策略[24, 193, 206],确保每种情况都经过优化训练以获得最佳性能。另一种方法涉及集成方法[55, 76, 183],即将基于部分/完整模态集训练的模型进行组合,使得系统能够根据可用的模态选择最合适的模型进行联合预测。此外,离散调度器方法[148, 159, 188]可以整合各种下游模块,灵活处理任意数量的模态,并执行特定任务。这些调度器智能地选择并组合多个模型或模块的输出,以管理缺失模态的场景,为多模态任务提供一种多功能的解决方案。
我们的分类法(图2)能够反映多模态学习的不同方面和层次——从模态数据到数据表示、架构设计到模型组合——每个方面都为基于任务需求和可用资源解决缺失模态问题提供了不同的途径。
3 数据处理方面的方法
3.1 模态填充
模态填充是MLMM方法中用于处理缺失模态样本的技术,通过对现有模态进行各种转换或操作,填充缺失模态或生成缺失的模态,从而完成包含缺失模态的完整数据集。解决缺失模态问题的模态填充方法可以分为两类:(1) 模态组合方法:使用零值/随机值或从相似实例复制的数据作为缺失模态数据的输入。通过这些方法生成的代表缺失数据的数据,随后与可用模态的数据组合,形成“完整”的模态样本。(2) 模态生成方法:使用生成模型(如自编码器[51]、生成对抗网络(GANs)[39]或扩散模型[52])生成缺失模态数据。生成的数据与可用模态的数据组合,形成“完整”的模态样本。我们将在下一个小节中详细介绍这两种方法。
3.1.1 模态组合方法
模态组合方法因其简单有效且能够保持原始数据集大小而被广泛采用。零值/随机值组合方法是一种模态组合方法,它通过将缺失模态替换为零值或随机值,如图3所示。在最近的研究中[26, 99, 112, 158],这些方法常作为与其他更复杂方法进行比较的基准方法。在处理缺失序列数据问题时,如视频中的缺失帧,提出了类似的帧零方法[130],该方法用零值替换缺失的帧。这些方法在典型的多模态学习过程中非常常见,并且可以用于平衡和整合来自不同模态的信息,从而进行预测。这种方法可以防止模型对每个样本中可用的主导模态产生过度依赖,通过鼓励更平衡地整合所有可用模态的信息,增强了模型的鲁棒性。
图3. 零值/随机值组合方法 假设模态2缺失,则该模态将被零值或随机值替代。本文调查中的所有图示中,“DNN”表示不同类型的深度神经网络。
基于检索的表示组合方法 (图4) 代表了另一种模态组合方法,该方法通过复制或平均与缺失模态相同类别的样本数据来替换缺失的模态数据。其他一些方法通过随机选择具有相同分类和所需缺失模态的样本,从其他样本中选择模态数据,然后将其与缺失模态样本组合,以形成完整模态样本进行训练。然而,这些基于检索的模态组合方法不适用于像分割这样的像素级任务,仅适用于简单任务(如分类),因为如果组合了不匹配的样本,可能会导致噪声数据的过拟合。例如,Yang等人[196]提出了Modal-mixup方法,通过随机补充缺失模态的同类别样本来完善训练数据集。然而,这种方法无法解决测试阶段的缺失模态问题,因为它依赖于已知的训练数据标签。在一些多模态流数据分类任务中,如视听表达识别,视频流可能会由于网络通信数据包丢失等原因发生帧丢失,Frame-Repeat[130]方法提出通过使用过去的帧来弥补缺失的帧。
其他方法 [14, 196] 也使用了 K-最近邻 (KNN) 或其变体来检索与缺失模态最匹配的样本进行组合。对于这些匹配的样本,它们选择得分最高的样本,或获得这些样本的平均值来补充缺失的模态数据。实验表明,基于 KNN 的方法通常比上述方法表现更好,并且能够在测试过程中处理缺失模态。然而,这些基于 KNN 检索的模态组合方法通常面临较高的计算复杂性、对不平衡数据的敏感性以及显著的内存开销等问题。
上述所有方法都可以完成缺失模态的数据集,但它们会降低数据集的多样性,因为可能会引入重复的训练样本。对于具有较高模态缺失率的数据集来说,这尤其成问题,因为在大多数样本都缺失模态数据的情况下,如果通过重复的样本填充缺失模态数据,将增加对某些类的过拟合风险,尤其是对于那些只有少量完整模态样本的类。
3.1.2 模态生成方法
随着深度学习的进展,利用强大的表示学习和生成模型捕捉复杂的跨模态关系,生成缺失模态的数据变得更加有效。当前的缺失模态数据生成方法分为个体生成方法和统一生成方法。