ER论文阅读-Multivariate, Multi-frequency and Multimodal: Rethinking Graph Neural Networks for Emotion Re

基本介绍:CVPR, 2023, CCF-A

原文链接:

https://openaccess.thecvf.com/content/CVPR2023/papers/Chen_Multivariate_Multi-Frequency_and_Multimodal_Rethinking_Graph_Neural_Networks_for_Emotion_CVPR_2023_paper.pdf

Abstract

        跨模态和上下文维度的高元关系是对话情感识别(ERC)任务中的一个关键挑战。然而,以往的工作往往以松散耦合的方式编码多模态和上下文关系,这可能会损害关系建模的效果。最近,图神经网络(GNN)在捕捉数据关系方面展现了优势,为ERC提供了新的解决方案。然而,现有基于GNN的ERC模型未能解决GNN的一些普遍局限性,包括假设成对关系形式以及消除高频信号,这些问题可能对许多应用无关紧要,但对ERC任务却至关重要。在本文中,我们提出了一种基于GNN的模型,该模型探讨了多变量关系,并通过重视多频信号来捕捉情感差异性和共性的变化重要性。我们增强了GNN在捕捉话语间内在关系上的能力,提供了更充分的多模态和上下文建模。实验结果表明,我们提出的方法在两个流行的多模态ERC数据集上优于现有的最新研究成果。

1. Introduction

        在人类日常交流中,人们不断表达自己的情感。对话中的情感识别(ERC)旨在使机器能够检测对话中互动的人类情感,利用包括文本、视觉和音频信息在内的多感官数据。与传统的单模态情感计算任务(如文本、语音或面部图像)或非对话场景不同,ERC任务中存在一个独特且重要的挑战——多模态和对话上下文之间复杂的多变量关系。换句话说,一个话语的情感依赖通常具有高元关系,涉及多个模态和上下文维度的多源信息。

        图1展示了两个发言者之间的对话样例。以话语u3为例。话语u3的视觉和音频信息(面无表情和平淡的语气)是模糊的,但结合文本时暗示了一种隐含的愤怒。此外,u3背后的情感也与之前的上下文u1和u2相关。特别是,从u2中使用昵称到ug中使用全名的变化,暗示了由于另一位发言者试图轻松开玩笑而引发的情感转变。因此,{u1, u2, u3}之间的关系是复杂且多变量的,涉及模态和上下文维度的相互依赖性。

        研究人员一直在探索如何更有效地捕捉复杂关系。在现有的ERC模型中,一种主流范式是通过上下文敏感模块(如循环单元或Transformer)捕捉上下文关系,同时通过各种融合方法来建模多模态关系。尽管取得了进展,但这一范式往往低估了模态和上下文之间的多变量关系,因为它限制了松散耦合的多模态和上下文建模之间的自然交互。

        最近,图神经网络(GNN)在ERC中展示了巨大潜力,并通过揭示挖掘结构信息和数据关系的强大表现力,取得了显著的进展。一种常见的解决方案是构建一个异构图,其中话语的每个模态被视为一个节点,既与同一话语的其他模态连接,也与同一对话中相同模态的话语连接。通常会紧随其后设计精细调整的边权重策略。在此基础上,通过信息传递可以同时建模话语之间的多模态和上下文依赖关系,从而实现更紧密的耦合和更丰富的交互。尽管这些基于GNN的方法功能强大,但它们仍然面临两个局限:

  1. 多变量关系不足。传统的GNN假设对象之间是成对关系,并且只能通过多个对之间的关系提供对高阶和多变量关系的近似。然而,将这些多变量关系简化为成对关系可能会削弱其表现力。因此,之前基于GNN的方法可能无法充分建模ERC中的复杂多变量关系。
  2. 高频信息被低估。已有研究表明,GNN的传播规则(即从邻居中聚合和平滑信息)类似于一个固定的低通滤波器,主要是低频信息在图中传播,而高频信息的影响被大大削弱。此外,Bo等人表明,低频信息保留了节点特征的共性,在同类图(链接的节点倾向于有相似的特征并共享相同的标签)中表现更好。相比之下,反映差异和不一致性的高频信息在异类图中更为重要。对于ERC来说,构建的图通常是高度异类的,模态之间(如讽刺)或短期上下文中可能存在不一致的情感信息。因此,高频信息可能提供关键的指导,但之前基于GNN的ERC模型严重忽视了这一点,导致了性能提升的瓶颈。

        为了解决这些问题,本文提出了多变量多频多模态图神经网络(M3Net),旨在捕捉模态和上下文之间更充分的多变量关系,同时利用图中的多频信息。M3Net的核心是两个并行的组件,即多变量传播和多频传播。具体来说,

  1. 我们首先构建了一个具有边依赖节点权重的超图神经网络用于多变量传播,其中每个话语的模态都被表示为一个节点。
  2. 我们构建了多模态和上下文的超边,能够连接任意数量的节点,从而可以自然地编码高元关系。
  3. 同时,我们基于无向图神经网络对多频信息进行建模,通过调整一组频率滤波器,从节点特征中提取不同的频率成分。
  4. 我们自适应地整合不同频率的信号,以捕捉情感差异性和情感共性在局部邻域中的不同重要性,从而实现自适应的信息共享模式。

        通过在两个流行的多模态ERC数据集IEMOCAP和MELD上的广泛实验研究,进一步验证了我们方法的有效性。结果表明,M3Net在性能上优于之前的最新方法。

2. Related work

2.1 对话中的情感识别

      由于在交互式应用中的巨大潜力,对话中的情感识别(Emotion Recognition in Conversation,ERC)引起了众多研究者的极大兴趣。在 ERC 中,已经进行了各种尝试来研究多模态和上下文关系。一些早期的工作 [13,14,24] 更注重上下文依赖,并通过简单的特征拼接来进行多模态建模。为了增强模态与上下文之间的相互关系,最近的方法引入了更高级的方案,如位置注意力 [34] 和自适应计算 [5]。然而,这些方法仍然以松散耦合的方式编码多模态和上下文关系,这可能导致它们之间的交互较弱。

        最近,一些研究者将 ERC 任务建立在图神经网络(Graph Neural Networks,GNN)之上。GNN 在挖掘数据关系方面具有强大的能力,因此在建模上下文和多模态依赖方面表现出优越的性能 [12,18]。然而,正如我们所讨论的,这些基于 GNN 的模型仍然提供了不充分的多变量关系,并低估了高频信号。

        在本研究中,我们提出了一种新方法,增强模态与上下文之间的多变量信息,同时捕捉情感差异和情感共性的不同重要性,以提供更充分的多模态和上下文建模。

2.2 图神经网络

        图神经网络(Graph Neural Networks,GNNs)在建模数据关系方面具有独特的优势,已被广泛应用于各种领域,例如推荐系统[16] 和动作识别 [6]。GNNs 也启发了 ERC 研究人员,并为 ERC 任务提供了新的解决方案,从单模态设置 [12,28] 到多模态场景 [17,18]。然而,之前的工作未能解决 GNNs 的两个普遍限制,包括仅进行成对关系的建模和忽略高频信息,这激发了我们的研究。我们提出了一种基于 GNN 的模型,能够编码高元关系,并重视邻域中的不同频率信号。我们增强了 GNNs,以更好地捕捉话语之间的内在关系,并提升了性能。

3. Methodology

        简而言之,ERC模型旨在检测对话中每个话语的情感状态。形式上,一个对话包含一系列的 N个话语 $\{(u_1, p_1), (u_2, p_2), \dots, (u_N, p_N)\}$,其中每个话语u_i由说话者p_i发出,包含多感官数据,包括文本u_i ^t、视觉u_i^v和声学u_i^a模态。目标是从预定义的C类集中预测每个话语

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值