论文笔记：Multimodal Machine Learning: A Survey and Taxonomy

最新推荐文章于 2025-02-26 22:02:51 发布

原创最新推荐文章于 2025-02-26 22:02:51 发布 · 5.8k 阅读

49 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #深度学习

多模态专栏收录该内容

2 篇文章

订阅专栏

本文综述了多模态机器学习领域的五个核心技术挑战，包括表示、映射、对齐、融合及协同学习，并详细介绍了各类技术方法，旨在解决多模态数据处理中的关键问题。

论文笔记：Multimodal Machine Learning: A Survey and Taxonomy

在本文中，我们主要关注但不限定三种模式：既可以写也可以说的自然语言；通常用图像或视频表示的视觉信号；编码声音和副词信息的声音信号，如韵律、声乐等。

由于数据的异构性，多模态机器学习的研究领域给计算研究者带来了一些独特的挑战。从多模态信息源中学习提供了捕获模态之间的对应关系并获得对自然现象深入理解的可能性。

多模态的历史回顾

视听语音识别(AVSR)：
多媒体内容检索
理解人类行为
新的多模态应用程序类别，它强调了语言和视觉：媒体描述。最具代表性的应用程序之一是图像字幕，评估挑战其任务是生成输入图像的文本描述

各应用涉及到的挑战

在这里插入图片描述

多模态的五个核心技术挑战

本文对**多模态机器学习的五个核心技术挑战（及其相关子挑战）**进行了识别和探讨。它们是多模态学习的中心，需要处理才能促进该领域发展。我们的综述超越了典型的早期和晚期融合分割，包括以下五个挑战：

表示（Representation）：第一个基本挑战是学习如何以一种利用多种模态的互补性和冗余性的方式表示和汇总多模式数据。多模数据的异构性使得构造这样的表示方法具有挑战性。例如，语言通常是象征性的，而音频和视频形式将被表示为信号。
映射（Translation）：第二个挑战是如何将数据从一种模式转换(映射)到另一种模式。不仅异构数据，而且模式之间的关系往往是开放的或主观的。例如，有许多正确的方法来描述一个图像，一个完美的映射可能不存在。
对齐（Alignment）：第三个挑战是确定来自两种或两种以上不同模式的(子)元素之间的直接关系。例如，我们可能希望将菜谱中的步骤与显示正在制作的菜肴的视频对齐。为了解决这一挑战，我们需要度量不同模式之间的相似性，并处理可能的长期依赖性和模糊性。
融合（Fusion）：第四个挑战是连接来自两个或多个模式的信息来执行预测。例如，在视听语音识别中，将唇动的视觉描述与语音信号融合，预测语音单词。来自不同模式的信息可能具有不同的预测能力和噪声拓扑结构，其中至少有一种模式可能丢失数据。
协同学习（Co-learning）：第五个挑战是在模态、它们的表示和它们的预测模型之间传递知识。这一点可以用协同训练、概念基础和零样本学习的算法来举例说明。协同学习探索了从一个模态中学习知识如何帮助在不同模态中训练的计算模型。当其中一种模式的资源有限（例如，注释数据）时，这一挑战尤其重要。

多模态表示（Representation）

通过各模态的信息找到某种对多模态信息的统一表示。来自同一个体的不同模态信息的表征（向量）间应具备更高的相似程度。

表示多种形式存在许多困难：如何组合来自不同来源的数据；如何处理不同级别的噪声；以及如何处理丢失的数据。以有意义的方式表示数据的能力对于多模式问题至关重要，并且是任何模型的主干。

良好的表示对于机器学习模型的性能非常重要，这一点在语音识别和视觉对象分类系统的性能最近的飞跃中得到了证明。Bengio等人的[18]识别了许多良好表示的属性:平滑性、时间和空间相干性、稀疏性和自然聚类等。Srivastava和Salakhutdinov[198]确定了多模态表示的其他理想属性:表示空间中的相似性应该反映出相应概念的相似性，即使在没有一些模态的情况下也应该很容易得到表示，最后，在给定观察到的模态的情况下，应该有可能补全缺失的模态。

本文提出了两种多模态表示：联合表示和协调表示

联合表示：将单模态信号组合到同一个表示空间中，在数学上表示为(1)式，多模态表示x_m使用依赖于单模态表示x1…xn的函数f(例如，深度神经网络、受限玻尔兹曼机或递归神经网络)计算.[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uu6vWj4a-1642591073231)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1642495178826.png)]
协调表示单独处理单模态信号，但对其施加一定的相似性约束，使其达到我们所说的协调空间，在数学上表示为(2)式，其中每个模态都有对应的投影函数(f和g)，将其映射到一个协调的多模态空间。而投影到每个形态的多通道空间是独立的,但它们之间产生的结果空间是协调的(表示为∼)。这种协调的例子包括最小化余弦距离[61]，最大化相关[7]，以及在结果空间之间强制执行偏序[212]。

联合表示（Joint Representations）

联合表示法主要（但不是唯一）用于在训练和推理步骤中同时存在多模态数据的任务。联合表示的最简单示例是**单个模态特征的串联（**也称为早期融合[50]）。在本节中，我们讨论了创建联合表示的更先进的方法，首先是神经网络，然后是图形模型和循环神经网络。

神经网络

一般来说，神经网络由连续的内积构建块和非线性激活函数组成。为了使用神经网络作为一种表示数据的方式，首先训练它来执行一个特定的任务（例如，识别图像中的对象）。由于深度神经网络的多层性质，每一层都假设以更抽象的方式[19]表示数据，因此通常使用最后或倒数第二个神经层作为数据表示形式。要使用神经网络构建多模态表示，每个模态从几个单独的神经层开始，然后是一个隐藏层，将模态投射到一个联合空间。然后，联合多模态表示将通过多个隐藏层本身或直接用于预测。这些模型可以经过端到端学习训练，以表示数据和执行特定的任务。这导致了在使用神经网络时，多模态表示学习和多模态融合之间的密切关系。

由于神经网络需要大量带标签的训练数据，因此通常使用自动编码器对无监督数据进行预训练[80]。Ngiam等人提出的模型[151]将使用自动编码器的思想扩展到多模域。他们使用堆叠式去噪自动编码器分别表示每个模态，然后使用另一个自动编码器层将它们融合成多模态表示。同样，Silberer和Lapata[184]提议使用多模自动编码器来完成语义概念基础的任务（见第7.2节）。除了使用重构损失训练表示，它们还将一个术语引入到使用表示来预测对象标签的损失函数中。由于使用AutoEncoder构造的表示是通用的，不一定是针对特定任务优化的，因此通常对手头特定任务的结果表示进行微调[217]。

基于神经网络的联合表示的优势是其通常具有优越的性能，并且能够在无监督的情况下对表示进行预训练。然而，性能的提高取决于可用于训练的数据量。缺点之一是模型不能自然地处理丢失的数据——尽管有一些方法可以缓解这个问题[151]，[217]。最后，深度网络往往很难训练[69]，但该领域在更好的训练技术方面正在取得进展[196]。

概率图形模型

一种通过使用潜在随机变量来构造表示的常用方法，如何使用概率图模型来表示单模和多模数据呢？基于图形模型的表示最流行的方法是深度玻尔兹曼机：deep Boltzmann machines (DBM)[176]，将restricted Boltzmann machines (RBM)[81]堆叠起来作为构建块。与神经网络类似，DBM的每个连续层都期望在更高的抽象级别上表示数据。DBMs的吸引力来自于他们不需要监督数据进行训练的事实[176]。由于它们是图形模型，因此数据的表示是概率的，但是可以将它们转换为确定性神经网络——但这就失去了模型的生成方面[176]。

Srivastava和Salakhutdinov[197]的工作引入了多模态深度信念网络作为多模态表征。Kim等[104]对每一种模态都使用了一个深度信念网络，然后将其组合成联合表征进行视听情感识别。Huang and KingsburyAVSR[86]采用了类似的模型，Wu等[225]基于音频和骨骼关节的手势识别。

Srivastava和Salakhutdinov[198]将多模态深度信念网络扩展到了多模态DBMs中。多模态DBMs能够从多种模态中学习联合表示，方法是使用隐藏单元的二进制层合并两个或多个无向图。由于模型的无向性，它们允许每个模态的低级表示在联合训练后相互影响。Ouyang等[156]探讨了多模态DBMs在多视图数据人体姿态估计中的应用。他们证明，在单模态数据经过非线性转换后的后期对数据进行集成对模型是有益的。同样，Suk等[199]利用多模态DBM表示法从正电子发射断层扫描和磁共振成像数据中对阿尔茨海默病进行分类。使用多模态DBMs学习多模态表示的最大优点之一是其生成特性，这允许以一种简单的方式处理丢失的数据——即使整个模态丢失，模型也有一种自然的处理方法。它还可以用于在另一种模态存在的情况下生成一种模态的样本，或者从表示中生成两种模态的样本。与自动编码器类似，可以以非监督的方式对表示进行训练，从而支持使用未标记的数据。DBMs的主要缺点是训练困难，计算成本高，需要使用近似变分训练方法[198]。

顺序表示

到目前为止，我们已经讨论了可以表示固定长度数据的模型，但是，我们通常需要表示不同长度的序列，例如句子、视频或音频流。在本节中，我们将描述可用于表示此类序列的模型。循环神经网络(RNNs)及其变体，如长-短时记忆(LSTMs)网络[82]，由于在不同任务的[12]序列建模方面的成功，近年来受到了广泛的欢迎[213]。到目前为止，RNNs主要用于表示单模态的单词、音频或图像序列，在语言领域取得了很大的成功。与传统神经网络相似，RNN的隐藏状态可以看作是数据的一种表示，也就是说，RNN在时间步t处的隐藏状态可以看作是该时间步之前序列的总结。这在RNN编码器框架中尤为明显，编码器的任务是以解码器可以重构的方式来表示处于RNN隐藏状态的序列[12]。RNN表示的使用并不局限于单模态域。使用rns构造多模态表示的早期使用来自Cosi等人在AVSR上的工作。它们还用于表示影响识别的视听数据[37]、[152]和表示多视图数据，例如用于人类行为分析的不同视觉线索[166]。

协调表示

联合多模表示的一种替代方法是协同表示。我们不是将模态一起投影到一个联合空间中，而是为每个模态学习单独的表示，但是通过一个约束来协调它们。我们从强调表示之间的相似性的协调表示开始讨论，接着讨论在结果空间上加强结构的协调表示。相似模型最小化了协调空间中模态之间的距离。例如，这种模型鼓励“狗”和“狗”图像的表示，它们之间的距离小于“狗”和“汽车”图像的表示之间的距离[61]。最早的例子之一就是韦斯顿等人的研究。在WSABIE（通过图像嵌入的网络比例注释）模型中，为图像及其注释构建了一个协调的空间。WSABIE从图像和文本特征构造了一个简单的线性映射，这样相应的注释和图像表示在它们之间会比不相关的注释和图像表示有更高的内积（更小的余弦距离）。

基于神经网络

近年来，神经网络由于具有学习表示的能力，已成为一种常用的构造协调表示的方法。它们的优势在于能够以端到端的方式共同学习协调的表示。这种协调表示的一个例子是设计深度视觉语义嵌入[61]。设计使用了类似于WSABIE的内积和排序损失函数，但使用了更复杂的图像和单词嵌入。Kiros等[105]利用LSTM模型和两两排序损失来协调特征空间，将其扩展到句子和图像的协调表示。Socher等人[191]处理了相同的任务，但将语言模型扩展到依赖树RNN以合并组合语义。Pan等人也提出了类似的模型。[159]，但使用视频而不是图像。Xu等人[231]还使用主题、动词、宾语组合语言模型和深层视频模型构建了视频和句子之间的协调空间。然后将该表示用于跨模式检索和视频描述任务。

图像和语言的顺序嵌入

结构化协调表示的另一个例子来自图像和语言的顺序嵌入[212]，[249]。Vendrov等[212]提出的模型强制执行了一个不对称的不相似度量，实现了多模态空间中的偏序概念。其思想是捕获语言和图像表示的部分顺序——在空间上强制执行层次结构;例如“遛狗的女人”的形象→文本“遛狗的女人”→文本“女人走路”。 Young等人[238]也提出了一个使用符号图的类似模型，其中符号图用于诱导部分排序。最后，Zhang等人提出了如何利用文本和图像的结构化表示以一种无监督的方式创建概念分类[249]。

基于正则相关分析（CCA）

CCA计算一个线性投影，该投影最大化了两个随机变量(在我们的例子中是模态)之间的相关性，并强制新空间的正交性。CCA模型被广泛用于跨模态检索[76]，[106]，[169]和视听信号分析[177]，[187]。对CCA的扩展试图构造一个最大相关非线性投影。核正则相关分析(Kernel canonical correlation analysis, KCCA)[116]使用复制核希尔伯特空间进行投影。但是，由于该方法是非参数的，因此它与训练集的大小之间的伸缩性很差，并且与非常大的实际数据集之间存在问题。引入了深正则相关分析（DCCA）[7]作为KCCA的替代方法，解决了可扩展性问题，并给出了更好的相关表示空间。类似的通信自动编码器[58]和深度通信RBMS[57]也被提议用于跨模式检索。

CCA、KCCA和DCCA是无监督的技术，只优化表示上的相关性，因此主要捕获跨模式共享的内容。深层规范相关的自动编码器[220]还包括一个基于自动编码器的数据重建术语。这促使表示也能捕获模态特定的信息。语义相关最大化方法[248]也鼓励语义相关性，同时保留相关最大化和由此产生的空间的正交性-这导致了CCA和跨模式散列技术的结合。

讨论

在本节中，我们确定了两种主要的多模态表示形式——联合和协调。联合表示将多模态数据投射到一个公共空间中，最适合在推理过程中出现所有模态的情况。它们被广泛用于AVSR、情感和多模手势识别。另一方面，协调表示法将每个模态投影到一个单独但协调的空间中，使其适用于测试时只有一个模态的应用，例如：多模态检索和翻译（第4节）、接地（第7.2节）和零镜头学习（第7.2节）。最后，虽然联合表示用于构建两种以上模态的表示，但到目前为止，协调空间主要限于两种模态。

多模态映射/翻译

多模态机器学习的很大一部分涉及从一种形式到另一种形式的映射。给定一个模态中的实体，任务是用不同的模态生成相同的实体。例如，给定一个图像，我们可能希望生成一个描述它的句子，或者给定一个文本描述，生成一个匹配它的图像。多模态翻译是一个长期研究的问题，在语音合成[88]、视觉语音生成[136]、视频描述[107]、跨模态检索[169]等领域都有早期的工作。

多模态翻译：一个特别受欢迎的问题是视觉场景描述，也称为图像[214]和视频字幕[213]，它是许多计算机视觉和NLP问题的一个很好的测试平台。要解决这一问题，我们不仅要充分理解视觉场景，识别其突出的部分，而且要在语法上正确、全面而简洁的描述它的句子。虽然多模态翻译的方法非常广泛，而且通常是模态特有的，但它们有许多共同的因素。我们将它们分为两类——基于实例的和生成的。基于实例的模型在模式之间转换时使用字典。

基于实例

基于实例的算法受到训练数据字典的限制，这类算法有两种类型

基于检索的算法：直接使用检索到的转换，而不需要修改它，依赖于在字典中找到最接近的样本，并将其用作翻译结果。检索可以在单模态空间或中间语义空间进行
- 单模态检索方法：在字典中查找源空间中最接近的实例
- 在检索过程中使用中间语义空间进行相似性比较
基于组合的算法：依赖于更复杂的规则来基于大量检索到的实例创建转换，不只是从字典中检索示例，而是以一种有意义的方式将它们组合起来，以构建更好的翻译

缺点：除非任务简单或字典很大，否则期望与源示例相关的完整和准确的翻译总是存在于字典中是不现实的。这部分由能够构建更复杂结构的组合模型来解决。然而，它们只能在一个方向上执行翻译，而基于语义空间检索的模型可以同时执行这两种方式。

基于生成

在给定单模源实例的情况下，多模态翻译的生成方法构造了能够执行多模翻译的模型。已有三大生成模型

基于语法的生成模型：使用语法限制目标域来简化任务，依赖于预定义的语法来生成特定的模态，首先从源模式检测高级概念，例如图像中的对象和视频中的动作。然后将这些检测与基于预定义语法的生成过程结合在一起，生成目标模态
- 优点：当它们使用预定义模板和受限制的语法时，它们更有可能生成语法上(对于语言)或逻辑上正确的目标实例
- 缺点：仅仅是公式化翻译，而不是创造性翻译。此外，基于语法的方法依赖于复杂的管道进行概念检测，每个概念都需要单独的模型和单独的训练数据集。
基于编码器-解码器的生成模型：首先将源模态编码为矢量表示，然后使用解码器模块生成目标模态，所有这些都在一个单通道管道中
- 编码：常用RNNs[35]和DBNs[79] ，CNN(图像)
- 解码：RNN,LSTM
- 缺点：网络可能是在记忆训练数据，而不是学习如何理解和生成视觉场景。
连续生成模型：用于序列转换，并以在线方式在每个时间步上生成输出。这些模型在将序列转换为序列(如文本到语音、语音到文本和视频到文本)时非常有用。已经为此类建模提出了许多不同的技术——图形模型、连续编码器-解码器方法以及各种其他回归或分类技术。
- 这些模型需要解决的额外困难是模式之间的时间一致性要求。
- 视觉语音生成[203]和文本语音转换[245]任务：HMM模型
- 音频和视频转换：使用共享高斯过程潜在变量模型进行基于音频的视觉语音合成
- 语音到文本翻译（语音识别）：RNN

讨论

多模态翻译方法面临的一个主要挑战是很难对其进行评价。虽然语音识别等任务只有一个正确的翻译，但语音合成和媒体描述等任务没有。有时，就像在语言翻译中一样，多个答案都是正确的，决定哪个翻译更好往往是主观的。幸运的是，在模型评估中有许多近似的自动度量。

评价主观任务的理想方法是通过人的判断。那就是让一组人评估每一个翻译。这可以在Likert量表上进行，在该量表中，每个翻译都在一定的维度上进行评估：语音合成的自然度和平均意见分数[209]、[244]、视觉语音合成的现实性[6]、[203]以及媒体描述的语法和语义正确性、相关性、顺序和细节[38]、[112]、[142]、[213]

虽然人类研究是评估的黄金标准，但已经为媒体描述的任务提出了许多自动替代方案：BLUE [160]、ROUGE [124]、Meteor [48]和CIDEr[ 211]。这些指标直接取自(或基于)机器翻译中的工作，并计算出度量两者之间相似性的得分生成的和基本的真实文本。

我们认为，解决评价问题对多式翻译系统的进一步成功至关重要。这样不仅可以更好地比较各种方法，而且可以优化更好的目标。

多模态对齐

定义：从两个或多个模态中查找实例子组件之间的关系和对应。例如，给定一幅图像和一个标题，我们希望找到与标题的单词或短语对应的图像区域[98]。另一个例子是，给定一部电影，将其与剧本或书中它所基于的章节进行比对[252]。

显式对齐

我们显式地对在模式之间对齐子组件感兴趣，例如，使用相应的教学视频对齐菜谱步骤。

如果论文的主要建模目标是来自两个或多个模式的实例子组件之间的对齐，那么我们将其归类为执行显式对齐。显式对齐的一个非常重要的部分是相似性度量。大多数方法依赖于以不同模式度量子组件之间的相似性作为基本构建块。这些相似性可以手动定义，也可以从数据中学习。处理显式对齐的算法有两种

无监督算法：不使用直接对齐标签(即来自不同模式的实例之间的通信）
- 无监督的多模式校准：解决了模式校准而无需任何直接校准标签
- DTW
- 基于CCA的DTW模型
弱监督算法：依赖于标记对齐的实例，它们用于训练用于对齐模式的相似性度量。

隐式对齐

用作另一个任务的中间(通常是隐藏)步骤，例如，基于文本描述的图像检索可以包括单词和图像区域之间的对齐步骤[99]。这使得在许多任务中，包括语音识别、机器翻译、媒体描述和视觉问答，可以获得更好的性能。这类模型不显式地对齐数据，也不依赖于监督对齐示例，而是学习如何在模型培训期间对数据进行隐式对齐。我们确定了两种类型的隐式对齐模型:早期基于图形模型的工作和更现代的神经网络方法。

基于图形模型：用于更好地对齐机器翻译语言之间的单词[216]和语音音素与其转录的对齐[186]。但是，它们需要手动构造模式之间的映射，例如，将电话映射到声学特性的生成电话模型[186]。构建这样的模型需要培训数据或人类专业知识来手动定义它们。
基于神经网络：将对齐作为神经网络转换的中间步骤

讨论

多模态对齐面临许多困难

1)具有显式标注对齐的数据集较少

2)两种模式之间的相似度指标难以设计

3)可能存在多种可能的对齐方式，一种模式中的元素不一定在另一种模式中都有对应关系。

多模态融合

优点

（1）能够访问观察同一现象的多种模式，可能会使预测更加可靠。

（2）能够访问多种模式可能允许我们捕获互补的信息——一些在单独的模式中不可见的信息

（3）当其中一种模态缺失时，多模态系统仍然可以运行，例如，当一个人不讲[50]时，从视觉信号中识别情绪

应用：视听语音识别(AVSR)[163]、多模态情感识别[192]、医学图像分析[89]和多媒体事件检测[117]

模型不可知论方法

早期融合（基于特征）：在提取特征后立即集成特征（通常只需将其表示连接起来），只需要单个模型的训练，这使得训练管道比后期和混合融合更容易。
晚期（即基于决策）：在每种模式做出决定（例如分类或回归）后执行集成，使用单模态决策值，并使用平均[181]、投票方案[144]、基于信道噪声[163]和信号方差[53]的加权等融合机制将其融合，或者使用学习模型[68]、[168]。它允许对每个模态使用不同的模型，因为不同的预测器可以更好地为每个单独的模态建模，从而提供更多的灵活性。但是容易忽略模式之间的低水平相互作用。
混合融合：结合了早期融合的输出和单个单模态预测因子，混合融合试图在公共框架中利用上述两种方法的优点。它已成功地用于多模态扬声器识别[226]和多媒体事件检测(MED)[117]。

优点：它们几乎可以使用任何单模态分类器或回归器来实现。

基于模型的方法

基于内核的方法

多核学习（MKL）：对内核支持向量机(kernel support vector machines, SVM)的扩展，它允许对数据的不同模式/视图使用不同的内核[70]。由于内核可以看作是数据点之间的相似函数，MKL中特定于模式的内核可以更好地融合异构数据。被用于多模态情感识别、多模态情绪识别、和多媒体事件检测(MED)

基于图形模型

优点是能够方便地利用数据的空间和时间结构，使其在时间建模任务(如AVSR和多模态影响识别)中特别受欢迎。它们还允许将人类的专家知识构建到模型中，并经常导致可解释的模型。

基于神经网络

应用： AVSR的研究[163]、视觉和媒体的问答[63]、[130]、[229]、手势识别[150]、情感分析[96]、[153]和视频描述生成[94]。

缺点：神经网络方法的主要缺点是缺乏可解释性。很难判断这种预测依赖于什么，以及哪种模式或特征起着重要作用。此外，神经网络需要大的训练数据集才能成功。

讨论

多模态融合仍然面临以下挑战

1)信号可能不是时间对齐的(可能是密集连续信号和稀疏事件)

2)难以建立利用补充信息而不仅仅是补充信息的模型

3)每种模态可能在不同的时间点表现出不同的类型和不同程度的噪声

多模态协同学习

通过从另一个(资源丰富的)模态中获取知识来帮助(资源贫乏的)模态建模。当其中一种模式的资源有限时(缺少带注释的数据、有噪声的输入和不可靠的标签)，它尤其重要。我们称这种挑战为共同学习，因为大多数情况下，辅助模式只在模型训练中使用，在测试期间不使用。我们根据培训资源确定了三种类型的共同学习方法:并行、非并行和混合。

并行

并行数据方法需要训练数据集，其中来自一种模式的观察直接链接到来自其他模式的观察。换句话说，当多模态观测来自相同的实例时，例如在视听语音数据集中，其中的视频和演讲样本来自同一个演讲者。

在并行数据共同学习中，两种模式共享一组实例——带有相应视频、图像及其句子描述的音频记录。这允许两种算法利用这些数据来更好地建模模式:联合训练和表示学习。

协同训练是在多模态问题[21]中只有少量的标记样本时，生成更多标记样本的过程。基本算法在每个模态中构建弱分类器，以便为未标记的数据彼此引导标签。研究表明，在Blum和Mitchell的开创性工作[21]中，人们发现了更多基于网页本身和超链接的网页分类培训样本。根据定义，该任务需要并行数据，因为它依赖于多模态样本的重叠。

非并行

非并行数据方法不需要在不同模式的观测之间建立直接联系。这些方法通常通过在类别上使用重叠来实现共同学习。例如，在零镜头学习中，传统的视觉对象识别数据集通过维基百科的第二个纯文本数据集进行扩展，以提高视觉对象识别的通用性。

依赖于非并行数据的方法不需要模式具有共享实例，而只需要共享类别或概念。非并行协同学习方法在学习表示时可以提供帮助，允许更好地理解语义概念，甚至可以执行不可见的对象识别。

零距离学习(Zero shot learning, ZSL)指在没有明确看到任何例子的情况下识别概念。例如，在没有见过(标记的)猫的图像的情况下对图像中的猫进行分类。这是一个需要解决的重要问题，例如在许多任务中，如可视化对象分类：为每一个感兴趣的可想象对象提供培训示例是非常昂贵的。

单模态ZSL：查看对象的组成部分或属性，如用于识别未听过的单词的音素，或用于预测未见的可视类[55]的视觉属性，如颜色、大小和形状
多模态ZSL：通过第二模态的帮助识别主模态中的对象——在第二模态中，对象已经被看到

混合

在混合数据设置中，模式通过共享模式或数据集进行桥接。

最值得注意的例子是桥接相关神经网络[167]，它使用一个中心模态来学习存在非并行数据的协调多模态表示。例如，在多语言图像标题的情况下，图像模式在任何语言中总是与至少一个标题配对。这些方法也被用来连接那些可能没有并行语料库但可以访问共享的枢轴语言的语言，例如机器翻译[148]、[167]和文档音译[100]。

有些方法不使用单独的模式进行桥接，而是依赖于来自类似或相关任务的大型数据集的存在，从而在仅包含有限注释数据的任务中获得更好的性能。Socher和Fei-Fei[189]利用大文本语料库的存在来指导图像分割。而Hendricks等[78]采用单独训练的视觉模型和语言模型，可以得到更好的图像和视频描述系统，但数据有限。

讨论

多模态联合学习允许一种模态影响另一种模态的训练，利用跨模态的互补信息。需要注意的是，联合学习是独立于任务的，可以用于创建更好的融合、转换和对齐模型。以协同训练、多模态表示学习、概念基础和零镜头学习(zero shot learning, ZSL)等算法为例，在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到了广泛的应用。