Multimodal Fusion on Low-quality Data: A Comprehensive Survey 中文版

文章汉化系列目录


文章目录


摘要

多模态融合旨在整合来自多个模态的信息,以实现更准确的预测,并在包括自动驾驶和医学诊断在内的广泛场景中取得了显著进展。然而,尤其在低质量数据的情况下,多模态融合的可靠性仍然没有得到充分的探索。本文综述了在真实环境中进行多模态融合时面临的常见挑战和最新进展,并将其呈现为一个综合的分类体系。从数据中心的视角出发,我们识别出了多模态融合在低质量数据中的四个主要挑战,即:(1) 含有异质噪声的噪声多模态数据;(2) 部分模态缺失的多模态数据;(3) 不同模态的质量或属性差异显著的不平衡多模态数据;(4) 各模态的质量根据不同样本动态变化的质量变化多模态数据。这个新的分类体系将帮助研究人员理解该领域的现状,并识别若干潜在的研究方向。我们还讨论了该领域的开放问题,并提出了有趣的未来研究方向。

引言

我们的世界感知基于多种感官模态,例如触觉、视觉、听觉、嗅觉和味觉。即使某些感官信号不可靠,人类仍能从不完美的多模态输入中提取有用的线索,进一步拼凑出发生事件的完整场景【1】。随着传感技术的发展,我们可以轻松地收集多种形式的数据进行分析。为了充分发挥每种模态的价值,多模态融合作为一种有前景的范式,通过整合所有可用的线索来获得精确可靠的预测,应用于下游分析任务,如医学图像分析、自动驾驶【2】【3】和情感识别【4】【5】【6】。直观地,融合来自不同模态的信息为探索跨模态的相关性并获得更好的性能提供了可能。然而,越来越多的认识到,广泛使用的人工智能模型在低质量数据中往往会受到虚假相关性和偏见的误导。在现实世界中,由于意外的环境因素或传感器问题,不同模态的质量通常会有所不同。一些近期研究已经在理论和实证上表明,传统的多模态融合在低质量多模态数据下可能会失败,例如不平衡的【7】【8】【9】【10】、噪声的【11】甚至损坏的【12】多模态数据。为了克服这一局限,并推动现实世界中强大且广泛适用的多模态学习,我们识别了低质量多模态数据的特性,并聚焦于在现实世界环境中进行多模态机器融合时面临的一些独特挑战。我们还强调了可能帮助使多模态融合在开放环境中更加可靠和可信的技术进展。本文中,我们识别并探讨了围绕低质量多模态数据的多模态融合的四个核心技术挑战,具体总结如下:
(1)噪声多模态数据。第一个基本挑战是学习如何减少多模态数据中任意噪声的影响。高维多模态数据通常包含复杂的噪声。多模态数据的异质性使得这一挑战更加复杂,但也提供了通过探索不同模态之间的相关性来识别和减少潜在噪声的机会。

(2)不完整的多模态数据。第二个基本挑战是如何处理不完整的多模态数据。例如,在医学领域,尽管患者可能患有相同的疾病,但他们选择的医学检查不同,这就导致了不完整的多模态数据。开发灵活且可靠的多模态学习方法,能够处理不完整的多模态数据,是一个具有挑战性但前景广阔的研究方向。

(3)不平衡的多模态数据。第三个基本挑战是如何减轻模态之间偏差和差异的影响。例如,视觉模态在整体上比音频模态更有效,这会导致模型走捷径,忽视音频模态。尽管现有的融合方法展现出良好的性能,但在某些以某一模态为主的应用中,它们可能无法比单一模态的主导模型表现得更好。

(4)质量动态变化的多模态数据。第四个基本挑战是如何适应多模态数据质量动态变化的特性。在实际应用中,由于不可预测的环境因素或传感器问题,一个模态的质量常常会因样本的不同而变化。例如,在低光或逆光条件下,RGB图像提供的信息可能不如热成像模态有用。因此,必须在实际应用中动态地集成多模态数据,并考虑不同模态质量的变化。

为了应对这些日益重要的多模态融合问题,本研究通过多个分类法系统地组织了关键挑战。与以往的相关工作讨论各种多模态学习任务不同【13】【14】,本综述主要聚焦于多模态融合,这是多模态学习中的最基本问题,以及低质量多模态数据在下游任务(如聚类、分类、目标检测和语义分割)中带来的独特挑战。在接下来的章节中,我们详细介绍了该领域的最新进展和多模态融合面临的技术挑战,特别是在低质量数据下的挑战:学习噪声多模态数据(第2节)、缺失模态填补(第3节)、平衡多模态融合(第4节)和动态多模态融合(第5节)。第6节为讨论部分,并给出了结论。

在这里插入图片描述
这段文字描述的是图1中展示的低质量多模态数据的挑战,具体包括以下几个方面:

蓝色和金色代表不同的模态,颜色越深表示质量越高。假设我们有N个多模态样本,每个样本包含M种不同的模态,每种模态的维度是 D D D q ( x ) q(x) q(x)表示多模态输入的质量,即从 x x x 收集的信息,能够支持下游任务。

(a) 噪声多模态数据的质量受到不可预见的环境因素的随机影响。

(b) 不完整的多模态数据中的某些模态质量为零(没有提供任何有用信息)。

( c ) 不平衡的多模态数据中,模态的预期质量是不同的。

(d) 不同样本中,各模态的质量是变化的。

这四个情境展示了在低质量数据环境下,多模态学习面临的不同挑战。
好的,我来为你翻译这一段内容,并保持学术性的表述:


2.学习含噪的多模态数据

在真实场景中采集高质量的多模态数据必然会面临显著挑战,其中一个关键问题就是噪声的存在。多模态数据的噪声可能来自传感器误差、环境干扰或传输损失。对于视觉模态而言,传感器中的电子噪声会导致细节丢失;而在音频模态中,环境因素可能会引发意外的失真。更为严重的是,多模态样本往往存在弱对齐甚至未对齐的情况,这种情况可被视作存在于更高语义空间中的复杂噪声。幸运的是,利用模态之间的相关性或更好地挖掘多模态数据的内在联系,可以促进含噪多模态数据的有效融合。已有多项研究表明,多模态模型在性能上优于单模态模型。这主要得益于多模态数据能够通过跨模态的相关性识别并缓解潜在噪声。总体而言,多模态噪声可根据其来源大致划分为两类:(1)模态特定噪声,即由各个模态的传感器误差、环境因素或传输问题引起;(2)跨模态噪声,即由弱对齐或未对齐的多模态样本导致,这类噪声可视为语义层面的噪声。

2.1 模态特定噪声的消减

模态特定噪声的消减方法高度依赖于输入模态以及具体任务。本节以多模态图像融合任务中的视觉噪声消减为例进行说明。大多数模态特定的去噪方法集中于从多模态数据中聚合有用信息,并削弱噪声在多模态融合中的影响。

2.1.1 基于变分的联合融合
在多模态视觉融合(如 RGB 与热成像)的噪声消减中,联合优化常被用于基于变分的去噪方法。在单模态去噪领域,以图像模态为例,经典的全变分(Total Variation, TV)去噪模型等价于以下优化问题:

min ⁡ ∬ [ u ( x , y ) − u 0 ( x , y ) ] 2   d x d y + λ ∬ ∣ ∇ u ( x , y ) ∣   d x d y , (1) \min \iint [u(x, y) - u_0(x, y)]^2 \, dxdy + \lambda \iint |\nabla u(x, y)| \, dxdy, \tag{1} min[u(x,y)u0(x,y)]2dxdy+λ∣∇u(x,y)dxdy,(1)

其中, u 0 ( x , y ) u_0(x, y) u0(x,y) 表示输入像素, u ( x , y ) u(x, y) u(x,y) 表示经过去噪后的输出像素。在多模态去噪中,联合变分模型用于融合与去噪,其定义如下:

min ⁡ ∬ ∑ m = 1 M w m [ u ( x ) − u m ( x ) ] 2   d x + λ ∬ ∣ ∇ u ( x ) ∣   d x , (2) \min \iint \sum_{m=1}^M w_m [u(x) - u_m(x)]^2 \, dx + \lambda \iint |\nabla u(x)| \, dx, \tag{2} minm=1Mwm[u(x)um(x)]2dx+λ∣∇u(x)dx,(2)

其中, u m ( x ) u_m(x) um(x) 表示来自第 m m m 个模态的输入数据, w m w_m wm 为非负权重,满足 ∑ m = 1 M w m = 1 \sum_{m=1}^M w_m = 1 m=1Mwm=1。简而言之,联合优化就是利用不同模态数据求解特定优化问题的过程。

已有研究提出了多种基于全变分的联合去噪与融合方法。Wang 等人 [19] 在像素域与小波域提出了联合变分模型,用于含噪多焦点图像的融合与去噪。Kumar 等人 [20] 采用全变分模型融合多传感器获取的图像,并在医学影像与飞行器导航领域的双模态图像上取得了优异效果。Padmavathi 等人 [21] 提出了基于全变分的图像融合算法,并结合优化的自适应加权方案用于医学多模态数据分析(如 MRI 与 PET 图像)。Nie 等人 [22] 提出了一种基于全变分的红外与可见光图像融合方法,提升了图像质量与信息整合。Quan 等人 [23] 提出了相对全变分结构分析(RTVSA) 方法,将高光谱成像(HSI)与 LiDAR 特征结合用于城市区域分类。Liu 等人 [24] 设计了两阶段增强(TSE)框架 ,结合注意力机制与特征连接模型(FLM),利用 结构自适应全变分(SATV)L1 稀疏项 提取双尺度细节层与基底层,在红外与可见光图像融合中展现出良好的鲁棒性与有效性。

详解: 这段内容讨论了多模态数据中的噪声问题以及如何通过去噪方法来提升多模态数据融合的效果。具体来说,内容分为两部分:1. 多模态数据中的噪声
多模态数据包含来自不同传感器(如视觉、音频等)的信息,而在真实世界中,采集这些数据时会面临噪声的影响。噪声可能来自多个方面:
模态特定噪声:这种噪声是由每个模态的传感器本身的问题引起的。例如,视觉数据中的噪声可能是由传感器的电子噪声引起的,导致图像细节丢失;音频数据可能受到环境噪声或传输损失的影响,导致音频失真。
跨模态噪声:这种噪声是由于多模态数据之间的弱对齐或未对齐引起的,指的是不同模态(例如视觉和文本)的数据未能准确地对齐,这种不匹配在语义上表现为噪声。
尽管这些噪声可能影响数据质量,但通过挖掘模态之间的相关性(例如,通过跨模态学习),可以有效减少噪声的影响,并增强多模态模型的表现。研究表明,多模态数据比单模态数据在性能上有优势,因为它们可以通过模态间的相关性识别并减轻噪声。2. 模态特定噪声的消减
这一部分专门讨论如何减少由单个模态引起的噪声,尤其是在视觉数据中的应用。针对视觉噪声,采用了基于变分的联合优化方法进行去噪。以下是相关的数学模型和方法:
全变分去噪:全变分(Total Variation, TV)去噪是一种经典的方法,用于减少图像中的噪声,同时保持图像的边缘和细节。其目标是最小化图像与噪声图像之间的差异,并惩罚图像的梯度,从而抑制噪声。
公式 (1) 表示一个典型的全变分去噪模型,它将图像的像素与去噪后的像素进行比较,同时对梯度进行正则化,从而抑制噪声。
公式 (2) 扩展了这个模型,应用于多模态数据的联合去噪。这里, u ( x ) u(x) u(x) 代表去噪后的图像, u m ( x ) u_m(x) um(x) 是来自第 m m m 个模态的输入数据, w m w_m wm 是每个模态的权重。
联合优化方法的应用:
多项研究通过全变分的联合去噪方法提升了图像的质量。例如,Wang 等人提出了一种联合变分模型,用于多焦点图像的融合与去噪,Kumar 等人则采用全变分模型进行多传感器图像的融合,取得了良好的效果。
在医学影像和多传感器应用中,这些方法的表现尤为出色,能够有效融合来自不同模态(如红外与可见光图像、MRI与PET图像)的数据,改善图像的质量并增强信息整合。
通过上述方法,可以有效减少多模态数据中的噪声,提升数据的质量,从而改善多模态学习模型的性能。

2.2 跨模态噪声的消减

许多多模态任务(如多模态目标检测、视觉-语言理解)高度依赖正确对齐的多模态训练数据。然而在真实场景中,多模态配对往往存在弱对齐甚至未对齐的样本 [25]。例如,在 RGB-热成像多模态目标检测 中,输入模态通常是弱对齐的,即相同目标在不同模态中的位置可能存在偏移 [26];在社交媒体中,文本描述常与图像内容无关,即表现为未配对模态。在本节中,我们将弱对齐或未对齐的多模态样本视为跨模态噪声。与模态特定噪声相比,跨模态噪声存在于更高层次的语义空间。

当前跨模态噪声的消减方法主要分为三类:基于规则的过滤基于模型的校正以及噪声鲁棒正则化

数据层面来看,一些研究通过严格规则进行数据清洗 [27], [28], [29]。近期代表性方法 CAT(Complexity, Action, and Text-spotting) [28] 通过筛选信息量更高的图文对降低跨模态噪声的影响。在多光谱目标检测中,图像配准(spatial alignment) 是常见的预处理方法 [30], [31],利用几何规则对两幅图像进行对齐以校正不同模态间的位移。

模型层面来看,过滤或校正方法旨在识别并剔除或修正跨模态噪声样本。Huang 等人提出 Noisy Correspondence Rectifier (NCR) [12],利用神经网络的记忆效应,根据损失差异将数据划分为干净与含噪子集,并通过协同教学的自适应预测模型修正对应关系。在图文匹配任务中,NCR 在含跨模态噪声的数据下取得了优异性能。另一些方法通过伪监督信号缓解噪声:例如 ALBEF [32] 采用动量模型生成伪目标作为额外监督;BLIP [33] 根据图文对相似性过滤噪声数据,并利用文本生成器重构相应文本,从而提升多模态配对质量,进而改善下游视觉-语言任务。

噪声鲁棒正则化也是缓解跨模态噪声的另一思路。NLIP [34] 通过噪声自适应正则化避免模型过拟合于含噪图文对,并基于估计的噪声概率调整对齐标签;同时采用概念条件的跨模态解码器生成合成描述以补全缺失信息。Li 等人提出 OSCAR [35],通过检测图像中的目标标签并将其作为对齐锚点来减弱跨模态噪声影响。近期研究也从理论与实证层面揭示了跨模态噪声对多模态对比学习的影响 [36],并提出新型 MMCL 损失函数以应对未配对的多模态样本。

(NLIP:摘要:近年来,大规模跨模态预训练范式在广泛的下游任务(如零-shot分类、检索和图像描述生成)上取得了显著的成功。然而,它们的成功高度依赖于网络爬取数据的规模和质量,而这些数据自然包含了大量不完整和噪声信息(例如错误或无关的内容)。现有的研究通常通过设计手动规则来清洗数据,或生成伪目标作为辅助信号以减少噪声的影响,但这些方法并没有同时显式解决数据中的不正确不完整问题。
在本文中,为了通过仅对现有数据进行挖掘自动减轻噪声的影响,我们提出了一个有原则的 噪声鲁棒语言-图像预训练框架(NLIP),通过两种机制来稳定预训练过程:噪声协调噪声补全
首先,在 噪声协调 机制中,NLIP 根据跨模态变换器的记忆效应估计每对数据的噪声概率,然后采用噪声自适应正则化来协调跨模态对齐,调整其不同程度的噪声影响。
其次,在 噪声补全 机制中,NLIP 为了丰富文本中缺失的对象信息,注入了一个概念条件的跨模态解码器,用来生成语义一致的合成标题,补充噪声数据中缺失的部分。该解码器使用与图像对应的 视觉概念(即对象名称)来指导标题生成。
通过协同优化 噪声协调噪声补全 机制,我们的 NLIP 能够更高效地缓解图像-文本预训练中的常见噪声问题。大量实验表明,我们的 NLIP 在仅使用 2600 万数据的情况下,相比现有的预训练模型(例如 CLIP 和 BLIP),在 12 个零-shot分类数据集上(例如,相比 CLIP 平均准确度提高 8.6%)、MSCOCO 图像描述生成(例如,相比使用 1.29 亿数据的 BLIP 在 CIDEr 上提高 1.9)和零-shot图像-文本检索任务中,均取得了显著的性能提升。
引言:视觉-语言模型(VLMs)(Yao et al. 2021; Radford et al. 2021; Li et al. 2021; Jia et al. 2021; Li et al. 2022a)通过图像-文本对进行预训练,在多个下游任务中展示了其非凡的零-shot迁移能力,包括零-shot分类(Radford et al. 2021; Yao et al. 2021)、图像-文本检索(Radford et al. 2021; Yao等)。为了利用质量和规模的优势,已经进行了一些尝试来缓解噪声样本的负面影响。一方面,一些过滤和后处理程序(Sharma et al. 2018; Changpinyo et al. 2021; Jia et al. 2021)被设计用来清洗大规模未标注数据以进行预训练。另一方面,少数研究探索了在训练过程中自动缓解噪声的方式。例如,ALBEF(Li et al. 2021)依赖动量模型生成伪目标作为额外的监督信号。BLIP(Li et al. 2022a)通过使用过滤器删除噪声数据,并利用文本生成器重构文本。NCR(Huang et al. 2021)利用损失分布将清洁样本和噪声样本区分开,然后通过模型预测来修正标签。然而,未标注的“噪声”数据通常自然地包含错误的文本描述或不完整的描述(例如,缺失某些物体概念的描述),现有的研究没有考虑在一个框架内自动缓解这两者。
在本文中,我们的目标是从两个方面实现噪声鲁棒学习:自我诊断错误对和正确对并协调损失;自我生成和选择有信心的、丰富概念的描述。为了充分利用包括噪声样本在内的整个图像-文本对,我们提出了一个有原则的 噪声鲁棒语言-图像预训练框架(NLIP),通过 噪声协调噪声补全 方案来稳定预训练过程:
(a) 噪声协调:在此方案中,NLIP 通过基于估计的噪声概率,学习协调跨模态对齐,并对每个对进行噪声自适应正则化。具体而言,Arpit 等人(2017)提出,深度网络通常首先拟合易于学习的(即干净的)样本,然后再学习噪声样本。基于跨模态变换器的记忆效应,NLIP 首先估计每个图像-文本对的噪声概率,然后对图像-文本对比损失应用噪声自适应正则化,以避免过拟合噪声数据(如图1(a)所示)。该方案使得干净对的图像和标题嵌入更加紧密,而噪声概率较高的对则较弱。
(b) 噪声补全:在此方案中,NLIP 使用一个概念条件的跨模态解码器,通过生成语义一致的描述来替代有害的噪声文本。具体来说,首先,我们通过预训练的 VLM 检索每张图像的视觉概念(即现有物体的名称)。然后,将这些视觉概念与图像一起输入到额外的文本生成头中,生成丰富的描述来替代噪声标题(如图1(b)所示)。此外,受到 He 等人(2021)启发,我们进一步探索通过随机遮蔽输入图像标记并重新构建它们来增强视觉编码器,这有助于在训练过程中减少计算成本并通过保持低级视觉信息来提升视觉嵌入。
实验结果表明,NLIP 在多个下游任务中表现出显著的性能提升,包括零-shot分类、零-shot图像到文本/文本到图像检索和图像描述生成任务。我们的 NLIP 在12个零-shot分类数据集上,相比 CLIP(Radford et al. 2021)平均准确率提高了 8.6%。在图像描述生成任务上,NLIP 在 MSCOCO 数据集上相比于使用 1.29 亿图像-文本对训练的 BLIP(Li et al. 2022a)在 CIDEr 上提高了 1.9。在零-shot图像-文本检索任务上,NLIP 在 Flickr30k 数据集上超越 CLIP,R@1 提高了 28.7%。)

2.3 讨论

综上所述,从含噪多模态数据中进行学习是一个普遍而具有挑战性的问题。现有方法主要从两个方面应对:其一是模态特定噪声消减(特征层面噪声),其二是跨模态噪声消减(语义层面噪声)。然而,这些方法通常聚焦于特定应用场景(如多模态图像融合或自动驾驶),而对更普遍的噪声模式与学习范式的探索仍显不足。

我们识别出该领域若干潜在研究方向。首先,需要进一步挖掘不同模态间的噪声相关性。例如,在高光谱图像中,相邻波段往往呈现相似的噪声模式。其次,充分利用含噪模态与干净模态之间的互补性可能成为有效的噪声消减策略。最后,处理高层次语义噪声是一个更具挑战性但也更有价值的方向。例如,如何利用 多模态大语言模型(Multimodal Large Language Models, MLLM) 来解决这一问题,值得深入研究。

3 不完整多模态学习

在实际应用中,收集到的多模态数据往往是不完整的,即部分样本存在缺失模态,这通常是由于设备损坏、数据传输或存储丢失等意外因素造成的。举一个具体的例子,在推荐系统中,用户的浏览行为历史和信用评分信息可能并非总是可用的【38】。类似地,在医学分析中,多模态数据也可能高度不完整,这可能源于患者的个人偏好、经济限制以及医疗资源的不足。例如,虽然结合多模态数据(如磁共振成像(MRI)扫描、正电子发射断层扫描(PET)以及脑脊液(CSF)信息)能够获得更准确的阿尔茨海默病诊断【39】【40】,但由于 PET 扫描费用高昂以及 CSF 测试的不适侵入性,一些患者可能会拒绝进行这些检查。因此,在阿尔茨海默病诊断中,不完整的多模态数据普遍存在【41】。通常,传统的多模态学习模型假设数据是完整的,因此无法直接应用于部分缺失模态的情形。针对这一问题,不完整多模态学习(incomplete multimodal learning)应运而生,其目标是探索存在部分缺失模态的多模态数据中的信息。近年来,该方向已引起越来越多的研究兴趣【42】。在本节中,我们主要聚焦于不完整多模态学习研究的最新进展。从是否对缺失数据进行填充的角度,我们将现有方法分为两类:基于填充的方法和无填充的方法。其中,基于填充的方法进一步分为两类,如图2所示,分别为实例级填充和模态级填充。

3.1 基于填充的不完整多模态学习

对于不完整的多模态数据,解决缺失模态学习问题的一种自然方法是直接对缺失模态或数据构建出的核函数、图中的相关缺失信息进行填充(如图2所示)。这样,传统的多模态学习算法便可以应用于下游任务。在这一分支中,现有的基于填充的方法可进一步分为两类:与模型无关的填充与模型相关的填充。其中,与模型相关的填充方法通常会专门设计一个填充模型或网络来恢复缺失数据;而与模型无关的填充方法则不需要额外的填充模型,通常采用启发式的填充策略来处理缺失模态。

3.1.1 与模型无关的填充

对于缺失模态,最简单的填充方式是零填充均值填充,即用零替代缺失值,或者用对应模态中的均值替代。这类方法被广泛用作大多数研究中的基线方法【43】【44】。然而,已有研究【43】表明,这种朴素的填充方式可能导致性能不佳。为此,有学者提出了一种加权矩阵分解模型,通过为填充模态分配较小权重,减轻其对优化的不良影响【43】。此外,在在线多模态聚类场景中,有研究【45】提出了一种基于有效模态和当前任务的动态加权与填充机制。
在基于图的方法中,Wang 等【46】利用从有效模态计算得到的相似度值来填充图中的缺失元素。在【47】中,不完整核函数中的缺失元素通过所有列的平均值进行预填充。在【48】中,作者同样采用对应模态的平均样本来填充缺失实例,并在图构建阶段为这些填充实例分配较小权重。

3.1.2 基于学习的填充

对于基于学习的填充方法,可以根据填充值的不同进一步分为两类:基于核/图的填充原始数据填充

基于核/图的填充:核方法和图学习方法是处理不完整多模态学习的两大主要途径,其思想是将学习过程从原始数据转移到核空间或图空间。对于由各模态构建的核或图,每个元素代表在核空间中的关系,或实例对之间的相似度/亲和度。当部分实例在某模态中缺失时,就会导致核矩阵或图的不完整。已有大量研究针对该问题提出了解决方案,以下简要介绍几项具有代表性的工作:

  • Williams 等【49】提出了一种基于高斯混合模型的方法,可解析地计算与缺失实例相关的高斯核缺失元素;
  • Trivedi 等【50】提出了一种基于**核典型相关分析(KCCA)**的填充方法,通过最小化拉普拉斯核正则化来获得缺失的核元素。但该方法仅适用于两模态数据且其中一模态是完整的;
  • 随后,集体核学习(CKL)【38】被提出,用于相互补全两个不完整模态的核。对于包含三种及以上模态的数据,CKL需要通过循环迭代方案,根据第 i 个模态的核 K i K_i Ki 来恢复第 (i+1) 个模态的核矩阵 K i + 1 K_{i+1} Ki+1
  • Sahely 等【51】提出了一种基于稀疏重构技术的多模态核补全方法,能够在保持核内一致性与探索核间关系的框架下,同时补全所有核的缺失行与缺失列;
  • Yang 等【52】将不完整多模态填充问题转化为一个半监督学习问题,并提出了 SLIM(不完整模态的半监督学习)及其核版本 SLIM-K,基于矩阵补全来解决模态缺失问题;
  • 最近,Liu 等【53】【54】【55】【56】提出了一系列灵活的核方法,用于恢复不完整多模态聚类任务中的缺失核元素。这些方法通过将所有不完整核对齐到一个由共识正交表示推导出的共识核,能够同时获得与缺失实例相关的缺失元素以及所有模态共享的不完整多模态数据聚类的共识划分表示;
  • 除了核方法外,一种自适应图补全方法【57】被提出,用于恢复所有模态图中的缺失相似度。该方法主要利用基于稀疏表示的数据重构技术,在恢复某一模态缺失元素时借助其他模态的图信息。

原始数据填充(Raw data imputation): 一些方法在原始特征层面恢复缺失模态。例如,VIGAN(View Imputation via Generative Adversarial Network)【58】是基于生成对抗网络(GAN)和自编码器的开创性工作,用于缺失模态恢复。VIGAN 首先利用 GAN 根据同一样本的另一模态来初始化缺失模态,然后使用去噪自编码器对恢复的缺失模态进行优化。VIGAN 的一个局限是它不适用于具有两种以上模态的数据。随后,一致性 GAN 的部分多模态聚类(PMVC CGAN)【59】和对抗性不完整多模态聚类(AIMC)【60】被提出,用于缺失模态填充和不完整多模态聚类。与 VIGAN 使用一个可用模态生成对应缺失模态不同,PMVC CGAN 和 AIMC 试图从同一样本的未缺失模态所编码的共享表示中学习缺失模态。在【61】中,提出了一种用于乳腺癌预测的两阶段不完整深度多模态网络。与 AIMC 和 PMVC CGAN 的网络结构类似,该方法同样引入了 GAN 来提升缺失视图填充的质量。除了基于 GAN 的方法外,CRA(Cascaded Residual Autoencoder,级联残差自编码器)【62】将所有模态堆叠为一个模态,并将缺失模态填充视为传统的缺失特征补全问题,通过优化单模态级联残差自编码器网络实现。Liu 等【63】提出了另一种具有代表性的基于自编码器的填充框架,称为 RecFormer,用于聚类任务。具体而言,RecFormer 采用一个带有自注意力结构的两阶段自编码器网络,同时提取高层语义表示并恢复缺失数据。

为了获得更可靠的模态填充性能,Tang 等人【64】提出将缺失模态填充为其对应语义邻居的平均值。Lin 等人【65】建立了一个双预测模型,该模型可以根据已观测模态的潜在表示预测缺失模态的潜在表示,然后使用解码器根据预测的潜在表示恢复缺失模态。矩阵分解也被应用于原始模态填充。例如,UEAF(Unified Embedding Alignment Framework)【66】和 IMCRV(Incomplete multimodal Clustering with Reconstructed Views)【67】提出了两种基于矩阵分解的缺失模态恢复模型,它们可以从共享表示中反向重构缺失模态的数据。在【68】中,引入了低秩表示张量学习,用于联合完成缺失模态恢复与图补全。在显式考虑填充可靠性的情况下,Xie 等人【69】提出了UIMC(Uncertainty-induced Incomplete Multi-View Data Classification)模型,用于解决不完整多视图数据分类中存在缺失视角的挑战。UIMC 通过将缺失模态填充为分布而非确定性值,来探索和利用不确定性,从而获得更可靠的预测。该模型采用证据多模态学习框架对填充数据进行加权,以减少低质量填充的影响。在不完整多模态动作识别任务中,Sangmin 等人提出了一种称为 ActionMAE 的模块化网络,该方法通过随机丢弃模态特征并学习对其进行填充。Lin 等人提出了一种新颖的目标函数,将表示学习和数据恢复集成到一个统一的信息论框架中,称为 COMPLETER【70】,用于聚类任务。具体来说,COMPLETER 通过最大化互信息来学习模态内一致性,并通过最小化条件熵来学习模态填充。Dong 等人提出了一种深度高斯过程模型【71】,用于填充缺失模态,并进一步提升下游任务性能。受对比学习的启发,Yang 等人提出了一种称为 SURE 的多模态填充范式【72】,用于稳健的多模态填充。该方法将完整的多模态对视为正样本,将随机采样的非配对样本视为负样本,并采用一种噪声鲁棒的对比损失来减轻伪负样本的影响(现有多视图聚类方法的成功很大程度上依赖于视图一致性实例完整性这两个假设,即所谓的完整信息。然而,在数据收集与传输过程中,这两个假设不可避免地会被破坏,从而导致所谓的部分视图未对齐问题(PVP, Partially View-unaligned Problem)部分样本缺失问题(PSP, Partially Sample-missing Problem)。为解决此类不完整信息带来的挑战,我们提出了一种新方法,称为 SURE(robuSt mUlti-view clusteRing with incomplEte information),它在一个统一框架下同时解决 PVP 和 PSP。简而言之,SURE 是一种新颖的对比学习范式,其将可用的样本对作为正样本,并随机选择一些跨视图样本作为负样本。为减少随机采样带来的伪负样本影响,SURE 采用了一种噪声鲁棒的对比损失,该方法在理论和实验上都能缓解甚至消除伪负样本的影响。据我们所知,这是首次成功尝试使用统一的解决方案同时处理 PVP 和 PSP。此外,这也可能是最早研究噪声对应问题(即伪负样本)的一项工作,而该问题可以看作是噪声标签的一种新范式。大量实验结果表明,在多视图聚类任务中,SURE 相较于 10 种最新方法展现出更强的有效性与高效性。)。Li 等人提出了一种基于原型的多模态填充方法【73】,该方法结合了带有双注意力层和对比学习机制的双流模型,以学习模态特定的原型并建模跨模态关系。在考虑不完整多模态输入的情况下,该模型利用从不完整多模态训练数据中学习到的原型,以及由已观测模态继承的样本-原型关系来进行模态填充。Xu 等人【74】提出了一种新的联邦多视图聚类方法,该方法使用无监督技术来评估和优化填充质量,从而能够高效处理各种不完整多视图数据场景。

3.2 无填充的不完整多模态学习

不同于上述基于填充的方法,无填充方法仅专注于挖掘可用模态所对应的信息。大多数相关的无填充方法可以分为以下四大主流方向:潜在表示与投影学习、图学习、核学习以及深度学习

3.2.1 潜在表示与投影学习

基于潜在表示和投影学习的不完整多模态学习(以聚类为例)通常通过挖掘这些可用模态之间部分对齐的信息来获得多模态潜在表示。在这一分支中,部分多模态聚类(PMVC)[75] 是一个基于矩阵分解的流行且开创性的工作。它专注于将两个完全观测到的模态数据编码到潜在子空间中的一个公共表示。在 PMVC 的基础上,不完整多模态分组(IMG)[44] 和部分多模态子空间聚类 [76] 进一步引入图约束,以捕捉潜在公共子空间中的结构信息。上述方法所使用的基本模型是从不完整的双模态数据中学习潜在的公共表示。Zhou 等人 [77] 将潜在表示学习与回归结合到一个统一框架中,用于基于不完整的多模态神经影像与基因数据进行阿尔茨海默病诊断。然而,上述基于模型 (4) 的方法一个广泛认可的局限性是,它们仅适用于双模态数据的情况。为解决这一局限性,引入了加权矩阵分解,其中具有代表性的方法包括双重对齐的不完整多模态聚类 [78]、一次性不完整多模态聚类 [79] 和局部稀疏不完整多模态聚类 [80]。这些模型通常将缺失实例的位置信息作为具有二进制值的加权矩阵施加到矩阵分解模型中,以消除损失并减少缺失实例的负面影响。基于加权矩阵分解的方法的基本模型可表述为:

min ⁡ U ( m ) , P ∑ m = 1 M ∥ W ( m ) X ( m ) − P U ( m ) ∥ F 2 + Ψ ( U ( m ) , P ) , \min_{U^{(m)}, P} \sum_{m=1}^{M} \left\| W^{(m)} X^{(m)} - P U^{(m)} \right\|_F^2 + \Psi\big(U^{(m)}, P\big), U(m),Pminm=1M W(m)X(m)PU(m) F2+Ψ(U(m)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值