【EMMR】不确定缺失模态下多模态情感分析的不一致性缓解

代码地址 -> github地址传送

abstract

针对多模态情感分析中的情态缺失问题,当情态缺失导致情感发生变化时,会出现不一致现象。决定整体语义的缺失情态可以被认为是关键的缺失情态。然而,以前的研究都忽略了不一致现象,简单地丢弃缺失的模态,或者仅仅从可用的模态中生成相关的特征。忽略关键的缺失情态格可能导致错误的语义结果。

为了解决这个问题,我们提出了一个基于集成的缺失模态重构(EMMR)网络来检测和恢复关键缺失模态的语义特征。具体来说,我们首先通过主干编码器-解码器网络学习剩余模态的联合表示。然后,基于恢复的特征,我们检查语义一致性,以确定缺失的情态是否对整体情感极性至关重要。一旦由于关键模态缺失而导致的不一致问题存在,我们集成了几种编码器-解码器方法以更好地做出决策。在CMU-MOSI和IEMOCAP数据集上进行了大量的实验和分析,验证了该方法的优越性。

intro

情感分析在过去几年中取得了重大进展(Zhang等人,2016),传统的文本情感分类已经发展成更复杂的多模态情感分析(MSA)模型。“是的,我想是的。“例如,如果没有足够的词汇信息,很难读懂情绪,如果有的话,声学形态可能有助于情绪识别。”因此,将不同的模式结合起来进行准确的情感分析是至关重要的。

到目前为止,在假设所有模式都可用的情况下,MSA已经得到了很好的研究。

然而,在现实中,这样一个强有力的假设并不总是成立,我们经常遇到的情况,部分模式可能会丢失。为了解决缺少数据的问题,已作出相应的努力以恢复缺少的模式。Tran等人(2017)首先发现了多模态数据中的缺失模态问题。最近的几部作品(Suo et al, 2019;Ma等人,2021;赵等,2021;Yuan等,2021;Zeng et al ., 2022)以不确定的方式关注缺失模态问题。

然而,上述所有工作都忽略了一个重要的洞察,即当情态缺失时,情绪可能会发生变化,从而导致预测结果不准确。例如,如图1所示,为了直观地表达,用情感语气来描述声学情态;视觉模态由多个面部图像组成;而文本情态指的是相应的文本。

由于声学模态的轻微音调和面部特征的轻微波纹,原始情感是中性的,模态饱满。然而,一旦语音情态缺失,剩余的情感就会受到语篇情态的引导,并倾向于消极。有或没有声情态的语义不一致,缺失的情态可以认为是一个关键的缺失情态。因此,忽略关键缺失模态可能导致不正确的预测。标记和恢复关键缺失情态对于MSA中情绪的准确识别具有重要意义。此外,对于恢复的特征,当他们表达不同的情绪时,权衡不同的模式仍然是非常具有挑战性的。

在本文中,我们通过提供一个集成解决方案来解决上述挑战,该解决方案可以准确地检测和恢复关键缺失模态的特征。更具体地说,我们提出了一个基于集成的缺失模态重构(EMMR)网络来处理不一致问题,进一步提高性能。提出的EMMR由一个骨干网络组成,该骨干网络利用编码器-解码器结构来恢复缺失的模态特征。此外,为了区分关键缺失情态,我们将恢复的完整情态与原始可用情态进行语义比较,以检查其一致性。然后,为了减轻不一致性,我们以集成的方式聚合基于Auto-Encoder (AE)和基于transformer的编码器-解码器方法。

这种策略自然地扩展了特征搜索空间,因此更适合做出连贯的决策。

正如预期的那样,并将通过实验验证,所提出的EMMR在两个基准数据集上显著优于几种最先进的基线。我们的主要贡献总结如下:

•我们提出EMMR以解决缺少关键模态的不一致问题,从而提高MSA的性能。

•我们将基于ae和基于transformer的编码器-解码器方法集成在决策制定中,以更好的预测性能减轻不一致性。

•与几种最先进的方法相比,我们的EMMR在各种具有挑战性的MSA数据集(包括CMU-MOSI和IEMOCAP)上实现了更好的性能。

related work

missing modality problem in MSA

以往的作品大致可以分为两类:1)生成方法和2)联合学习方法。

生成方法旨在生成与观察到的分布相匹配的新数据。(Kingma and Welling, 2014)提出了变分自编码器(Variational Auto-Encoder, VAE),用于将输入变量映射到多元潜在分布。Cai et al(2018)依靠GAN (Goodfellow et al ., 2014),将模态缺失问题转化为条件图像生成任务,旨在以现有模态为条件生成缺失模态图像。

联合学习方法试图从观察到的表征中学习潜在表征。为了提高联合表示学习的鲁棒性,在(Zhao et al ., 2021)中应用了循环一致性策略。此外,Zeng等(2022)重建了带有附加标签的不确定缺失模态的特征。

我们想指出的是,在处理缺少关键模态的情况时,上述工作可能没有考虑到不一致性而做出了不正确的预测。很快就会清楚,我们对MSA中的不一致现象进行了全面的分析。

ensemble learning

集成学习(Lee et al, 2021)旨在通过组合多个基本模型获得比单一模型更好的预测性能。近年来,集成技术已应用于许多NLP任务(Li et al ., 2021;Duan et al, 2021)。主要的想法是,权衡和汇总几个意见比选择一个人的意见更好(Sagi和Rokach, 2018)。具体而言,Li等(2021)使用随机种子生成多个候选结果,然后训练融合分类器来提高情绪识别性能。此外,Duan等人࿰

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值