Abstract
基于跨模态Transformer最新进展的渐进模态强化 (PMR) 方法。我们的方法引入了一个消息中心来交换与每个模态的信息。消息中心向每个模态发送公共消息,并通过跨模态注意加强它们的特征。反过来,它还从每个模态中收集强化特征,并使用它们来生成强化的公共消息。通过重复循环过程,公共消息和模态的特征可以逐步相互补充。
1. Introduction
由于来自不同模态的序列的可变采样率,收集到的多模态流通常是异步的。例如,具有抑郁面部表情的视频帧可能与过去所说的否定词有关。不同模态之间的异步性可以提高进行高效多模态融合的难度。
为此,多模态 Transformer (MulT) 方法来融合来自未对齐数据序列的跨模态信息 。他们的方法引入了模态强化单元,通过学习跨模态元素之间的方向成对注意(见图1),使用来自源模态的信息来加强目标模态。通过跨模态注意操作探索元素之间的跨模态交互,MulT 可以从异步序列实现多模态融合,而无需显式对齐数据。
此外,独立的成对融合方法无法利用源模态的高级特征。对于每个方向模态对,如图1(a)所示,通过反复关注源模态的低级特征来增强目标模态。直观地说,深度交互跨模态不能通过半浅层结构来探索。他们的方法还注意到这个问题,并尝试通过在源模态上堆叠前馈层来实现跨模态注意力(见图 1(b))。然而,观察到性能下降。这是因为源分支没有收到明确的监督来更新其前馈层,因为模态强化操作主要集中在生成强化的目标模态。因此,尚不清楚源模态的高级特征是否优于低级特征。相反,增加的模态复杂度可能会降低性能。
为此,提出了从未对齐的多模态序列进行多模态融合的渐进模态强化 (PMR) 方法。我们的方法引入了一个消息中心来交换与每个模态的信息。如图 2 所示,消息中心可以将公共消息发送到每个模态,以便通过跨模态强化它们的特征。
与之前的 MulT 模型 [相比,优势在于两个方面。首先,公共消息促进了跨模态的有效信息流,并鼓励跨模态注意操作探索所有三种模态的元素级依赖关系,而不是方向成对依赖关系。其次,渐进式强化策略提供了一种有效的方法来利用源模态的高级特征进行模态强化。与图1(b)不同的是,源模态的特征可以在将其视为目标模态的强化单元中获得清晰的监督。
2. Related Works
3. Progressive Modality Reinforcement
3.1. Problem statement
人类情感识别任务涉及三种主要模式,即语言 (L)、视频 (V) 和音频 (A)。用表示来自相应模态的输入序列。T(.)和d(.)分别表示序列长度和特征维度。我们的目标是从未对齐的多模态数据序列进行有效的多模态融合,以获得可以在情感姿态预测中产生理想性能的表示。
3.2. Preliminary - crossmodal attention
跨模态注意操作通过学习源模态之间的成对注意来加强目标模态。用表示来自源模态的数据序列,
表示来自目标模态的数据序列,其中s, t∈{L, V, A}。与自我注意机制类似,跨模态注意单元涉及Querys、Keys和Values,定义为
,
with
,
,
。跨模态注意力的单个头部定义为:
z