多模态人工智能 (Multimodal AI) 通常涉及各种类型的数据(例如,图像、文本或从不同传感器收集的数据)、特征工程(例如,提取、组合/融合)和决策。随着架构变得越来越复杂,多模态神经网络可以将特征提取、特征融合和决策过程集成到一个模型中。这些过程之间的界限越来越模糊。融合所基于的传统多模态数据融合分类法(例如,早期/晚期融合)已不再适合现代深度学习时代。因此,基于所使用的主流技术,本文提出了一种新的细粒度分类法,将最先进 (SOTA) 模型分为五类:编码器-解码器方法、注意力机制方法、图神经网络方法、生成神经网络方法和其他基于约束的方法。大多数现有的多模态数据融合综述仅关注一项特定任务,结合两种特定模态。与其他方法不同,本综述涵盖了更广泛的模态组合,包括视觉 + 语言(例如视频、文本)、视觉 + 传感器(例如图像、激光雷达)等,以及它们对应的任务(例如视频字幕、物体检测)。此外,还提供了这些方法之间的比较,以及该领域的挑战和未来方向
研究动机及贡献图 4. 传统分类法将融合方法分为三类。
多模态数据融合方法传统上分为四类,如图4所示,包括早期融合、中期融合、晚期融合和混合融合:
(1)早期融合:将从每种模态获得的原始数据或预处理数据融合在一起,然后发送到模型;
(2)中期融合:将从不同模态提取的特征融合在一起,并发送到模型进行决策;
(3)后期融合(也称为“决策融合”):将从每种模态获得的单独决策融合在一起形成最终预测,例如多数投票或加权平均值,或基于单独决策的元 ML 模型。
(4)混合融合:早期、中期和晚期融合的组合。随着大量多模态数据的出现,对更先进的方法(VS 精心挑选的融合方式)的需求空前增长。
然而,这种传统的融合分类只能为多模态数据融合提供基本指导。为了从多模态数据中提取更丰富的表征,DNN 的架构变得越来越复杂,不再单独、独立地从每个模态中提取特征。相反,表征学习、模态融合和决策在大多数情况下是交织在一起的。因此,无需精确指定多模态数据融合发生在网络的哪个部分。融合多模态数据的方法已经从传统的显式方法(例如早期融合、中期融合和后期融合)转变为更隐式的方法。
图5.本文提出的深度多模态数据融合模型的细粒度分类图。
因此,本文对深度多模态数据融合进行了全面的概述和分类。本综述的贡献有三方面:
-
提供了一种新颖的深度多模态数据融合模型的细粒度分类法,不同于现有的根据早期、中期、晚期和混合融合等传统分类法对融合方法进行分类的调查。文中探索了最新进展,并将 SOTA 融合方法分为五类:编码器-解码器方法、注意力机制方法、GNN 方法、GenNN 方法和其他基于约束的方法,如图5所示。
-
对由各种模态组成的深度多模态数据融合进行了全面的回顾,包括视觉+语言、视觉+其他传感器等。现有的综述通常侧重于单一任务(如多模态物体识别)和两种模态的一种特定组合(如 RGB+深度数据),而本综述的范围更广,涵盖了各种模态及其相应的任务,包括多模态物体分割、多模态情感分析、VQA 和视频字幕等。
-
探索了深度多模态数据融合的新趋势,并比较和对比 SOTA 模型。一些过时的方法,如深度信念网络,被排除在本综述之外。然而,大型预训练模型,即深度学习的后起之秀,被纳入了本综述中,例如基于 Transformer 的预训练模型。
基于编码器-解码器的融合方法
由于编码器-解码器模型网络架构具有强大的表示学习能力和良好的灵活性,近年来编码器-解码器被越来越多的深度多模态数据融合模型采用。基于模态和任务的差异,多模态数据融合模型的架构差异很大。本文总结了编码器-解码器融合方法的一般