多模态人工智能_多拟态人工智能-优快云博客

本文链接：https://blog.youkuaiyun.com/ZPC8210/article/details/143257641

多模态人工智能 (Multimodal AI) 通常涉及各种类型的数据（例如，图像、文本或从不同传感器收集的数据）、特征工程（例如，提取、组合/融合）和决策。随着架构变得越来越复杂，多模态神经网络可以将特征提取、特征融合和决策过程集成到一个模型中。这些过程之间的界限越来越模糊。融合所基于的传统多模态数据融合分类法（例如，早期/晚期融合）已不再适合现代深度学习时代。因此，基于所使用的主流技术，本文提出了一种新的细粒度分类法，将最先进 (SOTA) 模型分为五类：编码器-解码器方法、注意力机制方法、图神经网络方法、生成神经网络方法和其他基于约束的方法。大多数现有的多模态数据融合综述仅关注一项特定任务，结合两种特定模态。与其他方法不同，本综述涵盖了更广泛的模态组合，包括视觉 + 语言（例如视频、文本）、视觉 + 传感器（例如图像、激光雷达）等，以及它们对应的任务（例如视频字幕、物体检测）。此外，还提供了这些方法之间的比较，以及该领域的挑战和未来方向

研究动机及贡献图 4. 传统分类法将融合方法分为三类。

多模态数据融合方法传统上分为四类，如图4所示，包括早期融合、中期融合、晚期融合和混合融合：

（1）早期融合：将从每种模态获得的原始数据或预处理数据融合在一起，然后发送到模型；

（2）中期融合：将从不同模态提取的特征融合在一起，并发送到模型进行决策；

（3）后期融合（也称为“决策融合”）：将从每种模态获得的单独决策融合在一起形成最终预测，例如多数投票或加权平均值，或基于单独决策的元 ML 模型。

（4）混合融合：早期、中期和晚期融合的组合。随着大量多模态数据的出现，对更先进的方法（VS 精心挑选的融合方式）的需求空前增长。

然而，这种传统的融合分类只能为多模态数据融合提供基本指导。为了从多模态数据中提取更丰富的表征，DNN 的架构变得越来越复杂，不再单独、独立地从每个模态中提取特征。相反，表征学习、模态融合和决策在大多数情况下是交织在一起的。因此，无需精确指定多模态数据融合发生在网络的哪个部分。融合多模态数据的方法已经从传统的显式方法（例如早期融合、中期融合和后期融合）转变为更隐式的方法。

图5.本文提出的深度多模态数据融合模型的细粒度分类图。

因此，本文对深度多模态数据融合进行了全面的概述和分类。本综述的贡献有三方面：

提供了一种新颖的深度多模态数据融合模型的细粒度分类法，不同于现有的根据早期、中期、晚期和混合融合等传统分类法对融合方法进行分类的调查。文中探索了最新进展，并将 SOTA 融合方法分为五类：编码器-解码器方法、注意力机制方法、GNN 方法、GenNN 方法和其他基于约束的方法，如图5所示。
对由各种模态组成的深度多模态数据融合进行了全面的回顾，包括视觉+语言、视觉+其他传感器等。现有的综述通常侧重于单一任务（如多模态物体识别）和两种模态的一种特定组合（如 RGB+深度数据），而本综述的范围更广，涵盖了各种模态及其相应的任务，包括多模态物体分割、多模态情感分析、VQA 和视频字幕等。
探索了深度多模态数据融合的新趋势，并比较和对比 SOTA 模型。一些过时的方法，如深度信念网络，被排除在本综述之外。然而，大型预训练模型，即深度学习的后起之秀，被纳入了本综述中，例如基于 Transformer 的预训练模型。

基于编码器-解码器的融合方法

由于编码器-解码器模型网络架构具有强大的表示学习能力和良好的灵活性，近年来编码器-解码器被越来越多的深度多模态数据融合模型采用。基于模态和任务的差异，多模态数据融合模型的架构差异很大。本文总结了编码器-解码器融合方法的一般