【MTMSA】不确定缺失模态下基于情态翻译的多模态情感分析

MTMSA是基于TATE改进的,大致框架都和他一样,区别在于MTMSA没有提到tag,并且在多头注意力的部分进行了改进,也就是文中模态翻译模块,此外还加了两个损失函数。在TATE中有一章是不同设置的影响,里面有多个证明模型有效的实验,他摘取了多分类的实验,在TATE中用表格的形式给,这篇用了折线图。

abstract:

不确定缺失模态的多模态情感分析对情感分析提出了新的挑战。为了解决这个问题,已经提出了考虑缺失模态的有效MSA模型。

然而,现有研究仅采用拼接操作进行特征融合,忽略了不同模态之间的深层相互作用。此外,现有的研究未能充分利用文本情态,而情态在情感分析中可以达到更高的准确性。为了解决上述问题,我们提出了一种基于模态翻译的MTMSA模型(MTMSA),该模型对不确定缺失模态具有鲁棒性。首先,对于缺失数据不确定的多模态数据(文本、视觉和音频),使用模态翻译模块将视觉和音频转换为文本模态,然后将翻译后的视觉模态、翻译后的音频和编码后的文本融合为缺失联合特征(missing joint features, mjf)。接下来,变压器编码器模块在预训练模型(基于变压器的模态转换网络,TMTN)的监督下对mjf进行编码,从而使变压器编码器模块产生近似于完整模态的不确定缺失模态的联合特征。编码后的mjf输入到变压器解码器模块中,以学习不同模态之间的长期依赖关系。最后,根据变压器编码器模块的输出进行情感分类。在两个流行的基准数据集(CMU-MOSI和IEMOCAP)上进行了大量实验,实验结果表明MTMSA优于8个代表性基线模型。

intro:

多年来,情感分析一直是机器学习和自然语言处理领域的热门研究课题[1,2]。它旨在通过不同的方式(例如,文本、语音语调或面部表情)来理解和解释人类的情感。最近,自动和准确的情感分析在自然人机交互[1,3]、群体决策系统[4]、意见挖掘[5]和决策制定[6,7]中发挥了关键作用。随着YouTube、Twitter、微博等网络视频平台的普及,越来越多的用户愿意通过视频来表达自己的情感和观点。为了有效地识别这些视频的情感取向,多模态情感分析(MSA)被提出并受到越来越多的关注。例如,给定一段独白视频,MSA的目标是通过利用多种输入模式(包括文本、听觉和视觉模式)来检测所涉及的情感[8]。

与单模态数据相比,多模态数据可以代表情绪的不同方面,并提供互补的信息,可以显著提高情绪分析的准确性[9,10]。在过去的几年中,基于不同的技术提出了一些有效的MSA模型,如递归神经网络[11]、变压器[12,13]和图卷积神经网络[14,15]。现有的MAS研究取得了丰富的成果,促进了情感识别技术的快速发展。

然而,大多数MSA模型假设所有模态(文本、听觉和视觉)总是可用的[16]同时,在实际应用中,由于一些不可控因素,常常会出现不确定的缺失模态[17]。例如,如图1所示,当关闭或遮挡摄像头时,会丢失一些视觉信息;在用户沉默的情况下,无法获得某些语音内容;或者是由于设备错误导致语音和文本丢失。因此,所有模式在许多现实世界的场景中总是可用的假设是不成立的,因此,大多数MSA模型在不确定缺失模态下失效,解决不确定缺失模态下的MSA问题成为一个关键问题。

近年来,针对上述问题,针对模式缺失的MSA研究提出了几种有效的学习方法,大致可分为生成学习方法和联合学习方法两大类。一方面,生成方法旨在生成与观察到的分布相匹配的新数据。例如,Tran等人[18]提出了一种级联残差自编码器(CRA),通过叠加残差自编码器来模拟不同模态之间的相关性,然后使用它来估算缺失数据。Cai等人[19]设计了一个三维编码器-解码器网络来捕捉不同模态之间的关系,并利用辅助对抗性损失使可用模态产生缺失模态。

另一方面,联合学习方法试图从观察到的表征中学习潜在表征。如Zhao等[20]提出了一种统一的模型——缺失情态想象网络(Missing Modality Imagination Network, MMIN)。MMIN学习鲁棒联合多模态表示,在给定可用模态的情况下,可以预测任意缺失模态的表示。

Zeng等[21]提出了一种标签辅助变压器编码器(Tag-Assisted Transformer Encoder, TATE)网络来解决不确定缺失模态的问题。虽然对于缺少模态的MSA已经提出了一些出色的方法,但它们都存在一些不足,可以总结如下:

•现有的作品只是采用拼接操作来实现特征融合,无法考虑不同模态特征之间的深度交互

现有的作品没有充分利用文本情态在三种情态中,文本情态的情感分析准确率总是最好的。

•在处理不确定的缺失模态时,现有作品考虑所有缺失模态的情况,然后分别处理每种情况,这大大增加了MSA的复杂性。

针对上述问题,本研究提出了一种不确定缺失模态下的语义翻译网络(MTMSA)。

首先,对于具有不确定缺失模态的多模态数据(文本、视觉和听觉),使用模态翻译模块将视觉和听觉模态翻译成文本模态,而文本模态由转换编码器编码。

翻译后的视觉形态、翻译后的音频和编码后的文本被融合到缺失的联合特征(mjf)中。

接下来,变压器编码器模块在预训练模型的监督下对mjf进行编码,基于变压器的模态转换网络(TMTN)使用完整模态(TMTN)进行训练,从而使变压器编码器模块能够产生近似于完整模态的不确定缺失模态的联合特征。

同时,将编码后的mjf输入到变压器解码器模块中,用于指导变压器编码器模块学习不同模态之间的长期依赖关系。

最后,根据变压器编码器模块的输出进行情感分类。本研究的主要贡献如下:

为了捕捉不同模态之间的深度交互并利用文本模态,我们提出用一个模态翻译模块将视觉模态和听觉模态翻译成文本模态,不仅可以通过深度交互提高视觉模态和听觉模态的质量,还可以通过模态翻译来填补缺失的模态。

•为了处理MSA中的不确定缺失模态,我们应用预训练模型来监督变压器编码器模块,以生成接近完整模态的不确定缺失模态的联合特征。这种方法消除了模型确定缺少哪个模态/模态的需要,并且可以降低问题解决的复杂性。

•基于两个流行的基准数据集(CMU-MOSI和IEMOCAP),我们进行了大量的实验来验证我们提出的模型MTMSA的性能,实验结果表明MTMSA优于8个基线模型。

本文的其余部分组织如下:第2节回顾了相关工作。第3节描述了提出的模型。

第4节给出了实验评价和结果。最后,第五部分总结了本研究的结论,并对未来的研究方向进行了展望

related work:

multimodal sentiment analysis:

本研究涉及多模态情感分析和缺失模态的多模态情感分析。在接下来的章节中,我们将介绍这两个主题的相关工作。

多模态情感分析可以通过挖掘和整合多模态数据中的情感信息来提高情感分析的性能[2]。早期的多模态情感分析通常是通过特征分类实现的。Arunkumar等[22]提出了一种基于粒子群优化(SVM- pso)的支持向量机来推断意见挖掘输出,并验证了该方法优于其他分类器。随着深度神经网络的快速发展,基于深度学习的多模态情感分析方法取得了许多显著的成果。Mahendhiran等[3]提出了一种针对MSA的CLSA CapsNet,将概念级情感分析和自然语言概念提取相结合,然后应用胶囊网络对其进行解释和分析。实验结果表明,该方法可以达到较高的MSA精度。

通过对多模态情感数据的有效融合,可以提高情感分析的准确性[23,24]。为了学习多模态数据的联合表示,通常使用三种融合策略。(1)早期融合:将各个模态连接在一起,然后将混合数据输入到预测模型中。Sun等[16]提出了一种门控的模态间注意机制,以自适应的方式进行模态交互,过滤多模态的不一致性。(2)后期融合(Late Fusion):为每个模态建立单独的模型,结合模型的决策得到联合特征。Zheng等[25]分别为每种模态设计了特征提取方案和匹配模型结构,并采用后期融合方法融合所有特征。(3)混合融合:将早期融合和晚期融合相结合,融合特征。Mai等[26]提出了一种用于混合对比学习的HyCon模型三模态表示法。该模型利用了模态内/多模态对比学习和半对比学习来全面探索跨模态的相互作用,减少模态差异。

受机器翻译的启发,一些研究将编码器-解码器结构应用于MSA,并提出了一些基于情态翻译的有效MSA方法。Mai等人[27]提出了一种对抗性编码器-解码器框架,将源模态的分布转换为目标模态的分布。Yang[8]提出了一种多模态翻译框架,通过将视觉和音频特征转换成BERT提取的文本特征,提高了视觉和音频特征的质量。Wang等[28]提出了一种基于变压器的端到端翻译网络,该网络利用变压器进行模态之间的转换,并利用前向和后向翻译捕获多模态特征之间的相关性。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值