【LMR-CBT】基于CB-Transformer的学习模态融合表征在非对齐多模态序列中的情感识别

abstract

学习模态融合表征和处理未对齐的多模态序列是多模态情感识别中具有重要意义和挑战性的问题。现有的方法使用双向注意或信息中心来融合语言、视觉和音频模式。然而,这些方法在融合特征时引入了信息冗余,并且没有考虑模式的互补性,效率低下。在本文中,我们提出了一种有效的神经网络来学习CBTransformer (LMR-CBT)的模态融合表示,用于从未对齐的多模态序列中识别多模态情绪。具体而言,我们首先分别对三种模态进行特征提取,以获得序列的局部结构。然后,我们设计了一种新的跨模态块转换器(CBTransformer),实现了不同模态的互补学习,主要分为局部时间学习、跨模态特征融合和全局自注意表征。此外,我们将融合特征与原始特征进行拼接,对序列的情感进行分类。

最后,我们在三个具有挑战性的数据集,IEMOCAP, CMU-MOSI和CMU-MOSEI上进行了单词对齐和未对齐实验。实验结果表明了该方法在两种情况下的优越性和有效性。与主流方法相比,我们的方法以最少的参数达到了最先进的水平。

intro

多模态情感识别因其鲁棒性和卓越的性能而受到越来越多的关注(Nguyen et al . 2018;Poria等2020;Dai et al . 2021b)。

这项任务的目标是从视频片段中识别人类情绪,这涉及三种主要模式:自然语言、面部表情和音频信号。情绪识别应用于社交机器人、教育质量评估和医疗保健等领域,在2019冠状病毒病期间,情绪分析在这些领域尤为重要(Chandra和Krishna 2021)。与单一模态相比,多模态提供了丰富的信息,可以充分反映情绪状态。然而,由于不同模态序列的采样率不同,收集到的多模态往往是不对齐的。手动对齐不同的模式通常是劳动密集型的,需要领域知识(Tsai et al . 2019b;Pham et al 2019)。此外,大多数高性能网络无法在参数数量和性能之间实现平衡。为此,我们专注于学习融合模态表示的能力,并有效地在未对齐的序列上执行多模态情感识别。

在之前的作品中(Sahay et al 2020;Rahman等人2020;哈扎里卡、齐默尔曼和波里亚2020;Lin等人2021;Dai等人2021a), Transformers (Vaswani等人2017)主要用于未对齐的多模态情感识别。典型的是,Tsai等人(2019a)提出了多模态变压器(Multimodal Transformer, MulT)方法,在不明确对齐数据的情况下融合来自未对齐序列中不同模态的信息。该方法通过一个跨模态注意模块来学习元素对之间的相互作用,该模块迭代地用另一个模态的特征来强化一个模态的特征。最近,Lv等人(2021)提出了渐进式模态强化(PMR),通过引入消息中心与每个模态交换信息。该方法采用渐进式策略,利用高阶源模态信息进行非对齐多模态序列融合。

然而,MulT只考虑了模态对之间特征的融合,而忽略了三模态之间的协调。此外,采用两两方法融合模态特征会产生冗余信息。例如,视觉表征在视觉语言特征和视觉音频特征的串联中重复两次。PMR考虑了三种模式之间的关联,但通过设计集中式消息集线器来融合模式特征会牺牲其效率。具体来说,三种模式的信息需要与消息中心进行紧密的递归交互,以保证特征的完整性,这样的操作需要大量的参数。同时,该方法没有考虑模态信息之间的互补性,只需利用模态之间的交互即可完成特征融合,无需引入第三方。此外,由于模型是预先训练好的,目前的方法参数数量过多,无法适用于现实场景。

因此,为了解决上述限制,我们提出了一种神经网络,利用CB-Transformer (LMR-CBT)学习模态融合表示,用于从未对齐的多模态序列中识别多模态情绪。图2显示了LMR-CBT的总体架构。具体而言,我们首先分别对三种模态进行特征提取,以获得序列的局部结构。

对于音频和视觉模态,我们通过一维时间卷积获得相邻元素的信息。对于语言形态,我们使用双向长短期记忆(BiLSTM)来捕捉文本之间的长期依赖关系和上下文信息。

在获得三种模态的特征表示后,我们设计了一种新的跨模态块转换器(CB-Transformer)来实现不同模态的互补学习,主要分为局部时间学习跨模态特征融合全局自注意表示

在局部时间学习部分,使用音频和视觉特征通过transformer获得两个模态的相邻元素相关表示。在跨模态特征融合部分,采用基于残差的模态交互方法获得三模态的融合特征。在全局自关注表示部分,transformer学

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值