(2023 ArXiv)Cross-Attention is Not Enough: Incongruity-Aware Hierarchical MSA and ER

本文探讨了多模态情感计算中跨模态注意的作用,揭示了模态间不一致的问题。提出HCT-MG模型,通过分层处理和模态门控减轻不一致,有效融合信息并缩小模型规模。实验证明了HCT-MG在情绪分析任务中的优越性能和效率。

摘要

融合多种模式的情感计算任务已被证明是有效的性能改进。然而,多模态融合是如何工作的还没有被很好地理解,它在现实世界中的使用通常会导致大的模型尺寸。在此工作中,在情绪和情绪分析方面,我们首先分析了在跨模态注意中,一种模态中的显著情感信息如何受到另一种模态的影响。我们发现,由于跨模式的注意,在潜在水平上存在着多模式不一致。基于这一发现,我们提出了一种基于分层跨模态门控(HCT-MG)的轻量级模型,该模型根据对目标任务的贡献确定主模态,然后分层地加入辅助模态,以减轻模态间不一致和减少信息冗余。在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集上的实验评估验证了该方法的有效性,结果表明:1)该方法比以往的工作和人工选择主模态都取得了更好的性能;2)能够识别难以分辨情绪的硬样本;3)当情感倾向不匹配时,在潜在水平上减轻了模态间的不一致;4)将模型尺寸减小到小于1M个参数,同时优于现有类似尺寸的模型。

1. 介绍

2. 相关工作

随着交叉注意机制(Lu et al ., 2019)在自我注意中交换键值对的成功,使用交叉注意进行多模态融合的主要趋势已经出现,通常被称为交叉注意。Tsai等人(2019)提出了一种基于跨模态注意力的Transformer,通过直接关注其他模态中的特征来提供张量级跨模态自适应,融合多模态信息。Zadeh等人(2019)开发了一种基于自我注意和交叉注意的Transformer,分别提取模态内和模态间的情绪信息。Li等人(2022)使用分层结构的跨模态注意从不同的文本方面捕捉词汇特征,用于语音情感识别。

尽管取得了这些进展,但在多模态融合中仍存在一些问题。首先,不同的模态可能表现出不匹配的情感倾向,导致模态间不一致,这是MSEA任务的一个普遍问题。然而,该主题的大部分内容是基于模式之间的高层次比较分析,例如一个人在表达赞美的同时转动他/她的眼睛(Wu et al, 2021)。没有证据表明这种多式联运不协调可以在潜在的水平上通过跨模式的注意来解决。此外,为了提高MSEA任务的性能,通常会重复融合某些模式。这样的操作会给模型带来信息冗余,导致模

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一颗2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值