【MM-Align】学习基于输运的最优对齐动力学，快速准确地推断缺失模态序列

本文链接：https://blog.youkuaiyun.com/weixin_45962681/article/details/143608285

abstract

现有的多模态任务主要针对完整的输入模态设置，即每个模态在训练集和测试集中要么是完整的，要么是完全缺失的。然而，随机缺失的情况仍然没有得到充分的研究。在本文中，我们提出了一种新的方法MM-Align来解决模态缺失推理问题。具体而言，我们提出了1)基于最优传输（OT）理论的对准动力学学习模块，用于间接缺失数据的输入；2)一种去噪训练算法，可同时增强插值结果和骨干网性能。与以往专注于缺失输入重建的方法相比，MM-Align学习捕捉和模仿模态序列之间的对齐动态。在涵盖两个多模态任务的三个数据集上进行的综合实验结果表明，我们的方法可以在各种缺失条件下进行更准确、更快的推理，并减轻过拟合。

intro

近年来，多模态学习的话题空前流行(Ramachandram and Taylor, 2017；Baltrušaitis等人，2018)，从各种机器学习任务，如计算机视觉(Zhu等人，2017；Nam等人，2017)，自然语言处理(Fei等人，2021；Ilharco等人，2021)、自动驾驶（Caesar等人，2020）和医疗保健（Nascita等人，2021）等。尽管在这些领域取得了有希望的成就，但大多数现有的方法都假设训练数据的完整输入模态设置，其中每个模态在训练集和测试集中要么是完整的，要么是完全缺失的（在推理时）(Pham等人，2019；Tang等，2021；Zhao et al ., 2021)，如图1a和1b所示。

在模态输入模式中，训练集和测试集之间的这种协同作用通常与现实情况相距甚远，因为有一部分数据没有并行的模态序列，这可能是由于采集和预处理过程中的噪声污染。换句话说，每种模态的数据更有可能随机缺失（图1c和1d），而不是完全存在或缺失（图1a和1b） (Pham et al, 2019；Tang等，2021；赵等，2021)。基于完整的输入模态设置，关于缺失模态推理的一系列流行的例程是设计附加在主网络上的复杂生成模块，并在完全监督下使用完整的模态数据训练模型。通过最小化自定义重构损失，增强了生成模块的数据恢复（也称为缺失数据输入（Van Buuren, 2018））能力(Pham等人，2019；Wang et al ., 2020；Tang et al ., 2021)，以便在缺失情况下对模型进行测试（图1b）。

然而，我们注意到：

（i）如果训练集中完整模态数据稀缺，可能会发生严重的过拟合问题，尤其是当生成模型较大时（Robb等，2020；Schick和Schütze，2021；Ojha等，2021）；

（ii）基于全局注意力（即，对整个序列的注意力）的填充可能会带来意想不到的噪声，因为真实的对应关系主要存在于时间上相邻的平行信号之间（Sakoe和Chiba，1978）。Ma等（2021）提出利用单位长度的序列表示从输入的完整模态中表示缺失的模态以进行训练。然而，这类方法不可避免地忽视了模态序列之间的时间相关性，并且在下游任务中仅能获得一般的性能。

Q：什么叫基于全局注意力（即，对整个序列的注意力）的填充

A：

好的，我来用更简单的方式解释一下 “基于全局注意力（即，对整个序列的注意力）的填充” 是什么意思。

1. 什么是填充（插补）？

在处理序列数据时，可能会遇到缺失的数据点。填充就是指通过某种方法来估计并填补这些缺失的数据，使得序列完整。

2. 什么是全局注意力？

全局注意力是一种机制，在处理序列数据时，它会同时考虑序列中的所有数据点。也就是说，模型在预测或填补某个缺失值时，会参考整个序列的所有其他数据点，而不仅仅是与之相邻的点。

3. 基于全局注意力的填充是什么意思？

这意味着，当模型试图填补序列中的缺失数据时，它使用全局注意力机制，利用整个序列的信息来估计缺失值。

举个例子：

想象你有一段句子，其中缺了一个单词。基于全局注意力的填充方法会考虑句子中的所有其他单词，试图找出最适合填入缺失位置的单词。

4. 为什么可能会有问题？

在很多实际情况下，序列数据的相关性主要体现在相邻的数据点之间。例如，在时间序列、语音信号或视频帧中，当前时刻的数据通常与前后时刻的数据最相关。

使用全局注意力可能会引入与缺失值关联不大的远距离数据，导致填充值受到噪声影响，无法准确反映真实的缺失数据。

5. 总结

“基于全局注意力的填充”就是在填补缺失数据时，模型对整个序列施加注意力，利用所有数据点的信息来估计缺失值。然而，因为真实的相关性往往存在于时间上相邻的数据点之间，这种方法可能会引入不相关的信息，导致填充结果不理想。