A Persona-Infused Cross-Task Graph Network for Multimodal Emotion Recognition with Emotion Shift

在这里插入图片描述

摘要

近年来,多模态情绪识别(MERC)的研究主要集中在多模态融合和说话者感知上下文建模上。除了上下文信息外,人格特征也会影响情绪感知。然而,目前的MERC方法只考虑说话者的人格影响,忽略了说话者与收听者的互动模式。此外,情绪转移(ES)的瓶颈问题,即同一说话者的连续话语表现出不同的情绪,在MERC中一直被忽视。早期的ES研究未能区分不同的转移模式,只是简单地介绍了转移是否作为知识发生在MERC模型中,而没有考虑这两个任务的互补性。在此基础上,我们提出了一个注入人物人格的跨任务图网络**(PCGNet)。它首先通过注入人格的细化网络来模拟交互关系**。然后,学习ES检测的辅助任务和MERC的主要任务,利用跨任务连接来捕获两个任务之间的相关性。最后,我们引入了转移感知的对比学习来识别不同的转移模式。实验结果表明,PCGNet在两个广泛使用的数据集上优于最先进的方法。

1. 介绍

对话中的情感识别(ERC)的目的是识别对话视频中每一个话语所传达的情感。传统的ERC范式仅依赖于文本[8,26,37],但文本线索往往不足以理解深层情绪[5,7]。多模态ERC(MERC),将音频和视觉线索与文本相结合,正在获得越来越多的研究关注,[34,36]。

目前MERC的研究集中在两个方面:第一,说话者感知的上下文依赖关系,通过基于循环网络[4,9,18]、基于transformer的网络[10,14,25]和基于图的网络[24,27,28]进行探索。其次,我们特别强调了多模态交互,包括基于聚合的方法,如连接[5,29]、张量积[16,17]、注意力网络[21,32]和异构图方法[30,35]等。

尽管取得了一些进展,但情绪转移(ES)的瓶颈问题,即同一说话者的连续话语,在MERC中一直被忽视。早期的ES研究[1]未能区分不同的转移模式,只是介绍了转移是否作为知识发生在MERC模型中,而没有考虑这两个任务的互补性。此外,人格特征和上下文信息显著影响情绪感知[15]。在之前的工作中,Winter和Kuiper [33]从神经心理学和认知的角度强调了人格因素在情感体验中的重要性。Li等人[12]提出了一种多任务学习方法,通过捕捉人格特征和情绪检测之间的共性和区别,来提高情绪识别。然而,这些研究主要关注说话者的个性影响,而忽略了说话者-收听者在对话中的互动模式的细微差别。事实上,说话的风格、记录和内容不仅与说话人的身份而不同,而且与收听者[11]的身份也不同。在图 1 中,作为瑞秋的朋友,莫妮卡对瑞秋的痛苦深表关切,在得到瑞秋的回应后,莫妮卡的情绪从中立转为悲伤。而瑞秋也及时地安慰了莫妮卡。罗斯是瑞秋的前男友,尽管他的言谈举止充满喜悦,但却遭到了瑞秋的讽刺,导致罗斯的情绪由喜悦转为愤怒。

为了解决这个问题,我们提出了 PCGNet,这是一种新颖的方法,它通过整合跨任务上下文线索,同时处理 MERC 和 ES 检测任务。PCGNet 最初通过一个注入人格的细化网络来模拟说话人与收听者之间的交互关系。随后,PCGNet 利用跨任务连接来捕捉两个任务之间的相关性,从而学习 ES 检测的辅助任务和 MERC 的主要任务。最后,我们引入了转移感知对比学习(CL)来有效地识别各种转移模式。综上所述,我们的主要贡献可以总结如下:

  • 我们将MERC和ES检测纳入到使用跨任务上下文线索的多任务学习中。转移感知CL用于识别各种ES模式。
  • 我们引入了一个注入人物人格的细化网络来模拟说话者和收听者之间的互动关系。
  • 在两个流行的MERC数据集上的实验结果表明,我们的PCGNet优于最先进的方法。

2 方法

在本节中,我们将详细介绍PCGNet的每个组件,如图2所示。
在这里插入图片描述

2.1 任务定义

让U=[𝑢1,…,𝑢𝑁]是一个由𝑁个话语组成的对话,它是由M≥2的说话者发出的。每个话语𝑢𝑖都有一个元组𝑢𝑖={u𝑖𝑎,u𝑖𝑣,u𝑖𝑡},特征,其中u𝑖𝑎∈R𝑑𝑎,u𝑣𝑖∈R𝑑𝑣,u𝑡𝑖∈R𝑑𝑡分别代表声学、视觉和文本特征。MERC的主要任务是预测每个话语u𝑘的情绪标签𝑦𝑘。ES检测的辅助任务是预测每一个话语是否都发生了ES。

2.2 特征表示

根据[3]概述的方法,我们使用RoBERTa模型,并采用与之前的研究相同的设置,为每个话语产生上下文无关的特征向量。为了提取声学特征,我们使用了OpenSmile工具包,如[23]所示。同时,视觉特征使用预先训练的DenseNet模型,遵循[6]中详细介绍的方法。

2.3 话语级别的编码器

在这里插入图片描述

2.4 人格注入的优化网络

我们实现了人格模型CRNet[13]F𝑝,其中包括动态分析不同说话者在不同上下文下所表现出的五大人格特征[22]。为了将说话者-收听者的交互模式纳入到上下文信息的建模中,我们建议使用一个有向图G =(V,E,P),其中v𝜉𝑖∈V代表话语节点,e𝜉𝑗∈E表示节点之间的边缘,p𝑘∈P代表人格,包括外向性𝑝𝑘𝑒,神经质𝑝𝑘𝑛,亲和性𝑝𝑘𝑎,尽责性𝑝𝑘𝑐和开放性𝑝𝑘𝑜。每个节点由同一说话者连接到前面语句对应的所有中间节点,包括前面不同说话者的对应的节点和同一说话者的节点。聚合的过程可以用数学方法表示如下:
在这里插入图片描述

2.5 多任务交互图网络

图结构:我们建议使用一个有向图G = {V,E},以避免未来的话语影响当前的预测。受[38]的启发,G包括两个用于MERC和ES检测的子图。节点:在MERC和ES检测任务中,由𝑖索引的每个话语都由三个节点表示:{ v i a , e v_i^{a,e} via,e v i v , e v_i^{v,e} viv,e v i t , e v_i^{t,e} vit,e 用于MERC, v i a , e s v_i^{a,es} via,es v i v , e s v_i^{v,es} viv,es v i t , e s v_i^{t,es} vit,es} 用于ES。这些节点对应于声学、视觉和文本模式。节点初始化是通过将L的最后一层H𝑖𝜉与x𝑖𝜉连接起来来实现的。
在这里插入图片描述

在这里插入图片描述
更新:话语表示将通过图注意力网络(GAT)的𝐿𝐼层进行更新。例如,MERC任务的节点 v i t , e v_i^{t,e} vit,e 演示了更新机制,该机制在其他模态和ES检测任务中是相似的。
在这里插入图片描述

2.6 转移感知的对比学习

为了增强模型区分各种ES模式的能力,我们实现了成对感知的监督对比学习。
在这里插入图片描述

在这里插入图片描述

2.7 模型训练

我们的PCGNet通过一个联合训练过程进行训练,最小化由三个关键模块组成的复合损失。在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值