Generating and encouraging: An effective framework for solving class imbalance in multimodal emotion recognition conversation
生成与鼓励:解决多模态情绪识别对话中课堂失衡的有效框架
摘要
近年来,智能个人助理(IPAs)已成为人机交互中的重要工具,具有语音助理、虚拟客户服务和导航等广泛的应用前景。捕捉和理解用户突出的情感需求对于提高IPA的服务质量非常重要。在对话过程中自动识别和跟踪说话者情绪状态的多模式情绪识别(MMERC),已成为构建情绪识别的重要组成部分,引起越来越多的关注。目前在这一领域的研究是基于跨模态和单模态相互作用的图模拟。然而,这些方法忽略了MMERC中固有的高度不平衡的类问题,导致模型的泛化能力下降,无法有效识别少数情绪类别。数据挖掘方法采用过采样来解决不平衡分类问题,但它们不适合用于MMERC,因为它们破坏了多模态情绪识别数据集的会话一致性和模态对齐特征。为了克服这些问题,本文提出了一个IMBA-MMERC框架,它是解决MMERC中普遍存在的类不平衡问题的有效框架。在这个框架内,多模态对话的样本生成解决了多模态对话情绪识别数据集中存在的应用挑战,分类良好的鼓励损失减轻了由于决策边界偏差导致的模型在某些多数类上的性能下降。在两个英语基准数据集和一个中文公共数据集上,我们使用两个性能指标来证明所提出的方法的有效性和优越性。消融实验、案例研究和直方图可视化进一步验证了所提框架的良好性能。
1. 介绍
近年来,智能个人助理(IPAs)已成为人机交互的重要工具,在多媒体和人工智能系统中发挥着至关重要的作用。他们在语音辅助、智能家居管理、虚拟客户服务、导航和其他各种领域都有广泛的应用(德巴塞罗斯·席尔瓦等人,2020年;萨布拉曼尼亚等人,2021年)。对话中的情绪识别(ERC)在情绪IPAs的发展中起着至关重要的作用,旨在在对话过程中自动识别和跟踪说话者的情绪状态(Wang et al.,2020)。在ERC的背景下,充分利用现有数据中有价值的信息是非常重要的,因为对话是一个复杂而动态的过程,情绪可以以多种方式表达,如言语、面部表情和身体语言。对话中的多模态情感识别(MMERC)通过整合来自不同模式的信息,包括文本、音频和视觉线索处于情绪识别的前沿技术。MMERC因其能够更全面地了解说话者在对话中的情绪状态而受到了广泛的关注。通过整合来自不同来源的信号,MMERC超越了单模态方法的局限性,提高了在识别方面的准确性和可靠性(Zadeh等,2018;胡等,2021a,2022;Joshi等,2022;特贾什维尼和阿拉达纳,2023年)。
与传统的关注孤立话语的情感识别不同,ERC需要对个体话语进行上下文建模(Hu et al.,2021a)。语境可以归因于之前的话语,谈话回合中的时间性,或与说话者相关的信息,以及其他因素。在之前的工作中,已经提出了不同的模型来捕获上下文线索,包括基于LSTM的模型(Poria等人,2017年)、DialogueRNN模型(Majumeder等人,2019年)、DialogueCRN模型(Ghosal等人,2019年)和DialogueGCN模型(Hu等人,2021b)等。虽然这些方法可以通过执行早期/晚期融合来自然地扩展多模态范式,但很难捕获模态之间的上下文交互作用,这限制了多种模态的使用。一些精心设计的混合融合方法提出,专注于孤立或连续话语中模式之间的对齐和相互作用(Zadeh等人,2018;Liu等人,2018)。但这些方法忽略了话语之间复杂的交互作用,导致了在对话中对上下文信息的使用不足。
最近,模拟图架构中跨模态和单一交互的著名研究已经发表(Hu et al.,2021a;Liu等人,2021a),这为跟踪情绪的模式的互补本质提供了见解。研究已经利用基于图神经网络的架构来建模对话中的复杂依赖关系(Hu等人,2022年;Joshi等人,2022年)。然而,这些方法忽略了多模态会话情绪识别数据集所固有的高度不平衡的类特征。在MMERC的背景下,不平衡情绪类别的准确识别具有重要意义,因为这些不常见的情绪在智能个人助理中起着至关重要的作用。在对话过程中,说话者通常在大部分时间内保持一个稳定的情绪状态,如图1所示的具体例子所示。通过在对话中捕捉这些偶尔的突出的情绪,我们可以获得对整个话语的更全面和准确的理解。随后,我们可以调整我们的反应,以适应各种演讲者的情绪状态,更好地满足他们的个人需求。
图2显示了在数据集MELD和M3ED中的类的分布。忽略高度不平衡的类别特征,导致模型的泛化能力下降,无法有效识别少数情绪类别。
目前关于改进高度不平衡分类问题的研究在数据挖掘领域取得了重大进展。解决这一问题的主要方法包括算法级方法、cost-sensitive代价敏感方法和数据级方法(Chawla等人,2004年;Galar等人,2011年;科西安蒂斯等人,2006年)。尽管如此,这些方法在应用于多模态会话情绪识别的高度不平衡数据集时仍然面临挑战。多模态会话情绪识别数据具有两个显著的特征:对话一致性和模态对齐。简单地将样本生成方法应用于这个数据域,不仅会破坏对话的一致性,导致对话质量的下降,阻碍有效的信息传输,还会引入不同模态之间的对齐问题。这种错位导致生成的样本之间存在不一致的特征对应,导致模型获得了不正确的关联。此外,尽管研究表明,增加少数类的数据量可能导致模型调整其决策边界更好地捕捉这些新的少数类样本,这种调整也会导致最初正确分类的错误分类,从而降低总体分类精度(赵etal.,2022)。
为了克服上述问题,本文提出了IMBA-MMERC,一个有效的框架来解决MMERC中普遍存在的类不平衡问题。在这个框架中,多模态对话的样本生成解决了在多模态会话情绪识别数据集中存在的挑战,以及分类良好的鼓励损失,减轻了由于决策边界偏差,模型在某些多数类别上的性能下降。解决第一个问题,提高多模态嵌入特征的表达能力,在附近区域的相似上下文中实现样本采样算法,并在后续组合中加入权重参数控制,有利于保持会话的一致性。利用不同模态之间的互信息最大化,保证了新合成的多模态节点之间的对齐。为此,我们提出了一种基于多模态对话的样本生成方法。该策略增加了不平衡情绪类别的信息内容,从而提高了模型对少数情绪类别的学习有效性和识别能力。针对第二个问题,在多数群体和少数群体之间发现一个更平衡的边界,可以有效地提高模型识别少数情绪类别的能力,同时减轻因决策边界向多数群体转移而导致的绩效下降。为此,我们引入了分类良好的鼓励损失来改进情绪分类器。这种损失函数鼓励了更准确的预测,并尽可能最大限度地保护了模型在大多数类上的强大性能。我们在两个英文基准数据集和一个中文数据集上进行了广泛的实验,证明了该框架的有效性和优越性。我们的具体贡献总结如下:
- 我们提出了IMBA-MMERC,一个有效的框架,旨在解决MMERC中普遍存在的类别失衡问题。在这个框架内,多模态会话的样本生成解决了多模态会话情绪识别数据集中存在的应用挑战,分类良好的鼓励损失减轻了由于决策边界偏差导致的模型在某些多数类上的性能下降。
- 我们提出了多模态对话的样本生成方法,有效地丰富了不平衡情绪类别的信息内容,提高了学习效率,提高了对少数情绪类别的识别能力。
- 我们引入了分类良好的鼓励损失来改进情绪分类器,鼓励更准确的预测,从而最大限度地保护模型在大多数类上的强大表现。
- 在两个英语基准数据集和一个中国数据集上进行了大量的实验,验证了所提出的模型与最先进的方法相比的优越性性能。
2. 相关工作
本研究的目的是通过解决数据集中高度不平衡的类分布的挑战,提高会话框架中多模态情绪识别的性能。本节提供了对话中的多模态情感识别和不平衡分类领域的一些主要相关工作。
2.1 对话中的多模态情绪识别
随着对对话系统的研究兴趣日益增长(Dai等,2020a,b;Zhang等,2022),对话中的情感识别(ERC)的研究成为人工智能领域中一个突出和关键的研究领域。ERC包括对人类情绪的理解和识别,在推进对话系统的能力方面起着至关重要的作用。在研究的早期阶段,人工智能领域的学者主要采用基于常规的方法进行ERC(Rane and Khan,2018;Berka,2020)。这种方法需要构建一系列基于人类情感知识的规则,然后将输入文本与这些规则进行匹配来确定情绪。然而,由于主观的而情感的复杂本质,这种方法往往无法捕捉到文本中细微的情感细微差别,导致效果有限。
随着机器学习的兴起,统计方法开始在ERC领域获得广泛的关注。这些方法通常依赖于大规模的情绪数据集来训练学习文本和情绪之间关联的模型。一种广泛使用的方法是基于情绪字典的情绪分析(Bhonde等人,2015年;Ahmed等人,2020年)。该方法包括构建一个包含与情绪相关的词汇表的情感字典,然后通过计算文本中情感词的频率和权重来对情绪进行分类。虽然这种方法在一些任务中显示出了有希望的结果,但构建和更新情绪字典的挑战仍然存在。
近年来,深度学习技术的出现对ERC领域产生了深远的影响。深度学习算法通过构建多层神经网络模型,可以自动从数据中提取特征并进行情绪分类。例如,卷积神经网络可以从文本中提取局部特征,而递归神经网络可以进一步获取上下文信息。此外,研究人员还探索了利用注意力机制和迁移学习来进一步提高ERC的表现。这些深度学习方法在许多情绪识别任务中都表现出了良好的表现,成为当前情绪识别研究的主流方法。
近年来,在社交媒体的快速发展和高质量录音设备的出现的推动下,我们见证了多模式数据源的爆炸式增长(Sharma和吉安纳科斯,2020年;Foggia等人,2023年)。在现实生活场景中,多模态数据通常包括三种模式:视觉、声学和文本。一般来说,同一数据段内的不同模式往往相互补充,为语义和情感消除歧义提供了额外的线索(Ngiam et al.,2011)。同时,多模态机器学习的出现已经将会话中的情感识别领域扩展到多模态范式的领域。对话中的多模态情感识别(MMERC)超越了对文本的单纯依赖,拓宽了对话中的情感识别,允许全面利用不同的感知通道,增强了模型的感知能力。
在MMERC方面已经取得了重大进展。该领域的研究工作可大致分为三个主要方向:多模态融合、上下文感知模型和外部知识的集成。多模态融合方法通过整合来自不同模态的信息来增强人们对整体情绪的理解。Chen等人(2023a)应用了多模态信息和分布匹配的思想,在将来自不同模态的特征映射到一个共享的情绪空间时,使它们更接近。图卷积网络(GCNs)由于其处理非欧几里得数据的能力,近年来得到了广泛的应用(Chen et al.,2020;Cai等人,2023)。Hu等人(2021a,2022)、Joshi等人(2022)和Liu等人(2021a)模拟了图形架构中的跨模态和单模态交互,有效地利用了模态之间的互补性。虽然多模态融合有助于捕获多模态数据中的信息,但它并没有专门解决类别不平衡的挑战。上下文感知方法的目的是通过考虑会话情境中的情绪变化来捕捉情绪表达的动态特征。Mao等人(2021年)引入了情感动力学的概念来捕捉情境中的细微差别。虽然强调情境理解,但这些方法并没有明确解决类别不平衡,这可能仍然存在于特定情境中的某些情绪类别。结合外部知识的方法,如迁移学习(哈扎里卡等,2019年;李和李,2022)、常识知识(Ghosal等,2020)、多任务学习(Akhtar等,2019)和外部信息(Zhu等,2021),已被证明对提高模型性能是有效的。虽然引入外部知识可以为模型提供额外的信息,但这些方法缺乏一个特定的机制来解决类不平衡的挑战。
一些研究观察到了MMERC的类别失衡问题。Dave和Khare(2021)通过使用类权重来微调模型训练过程来解决了这个问题,这是一种常用的方法。然而,设置类权重通常依赖于领域知识或经验,这使得它不那么普遍适用。此外,类权重的有效性对特定的权重值高度敏感,如果选择不当,可能会导致性能下降或增加不稳定性。孟等人(2023)采用了数据增强、深度联合变分自编码器和多任务图神经网络等技术,以提高模型分类性能,减轻类不平衡的影响。然而,该方法未能考虑到多模态会话情绪识别数据的特征,而忽略了由于决策边界调整而导致的正确样本的错误分类问题。这可能导致模型的泛化能力下降,对少数情绪类别的识别无效。
2.1 不平衡分类
目前,正在进行的关于增强高度不平衡的分类挑战的调查已经在数据挖掘领域取得了实质性的进展。存在类不平衡的情况下改进分类的技术可以分为三类:算法级方法、cost-sensitive方法和数据级方法。算法级方法对分类算法本身进行了修改,但仅限于特定的分类器,并且可能会有未知的错误分类(沃斯基等,2018;Zhang等,2021;胡等,2023年)。cost-sensitive方法需要对错误分类成本的先验知识,并且针对问题,降低了其多功能性(Khan等人,2017;吴等人,2020;Chen等人,2023b)。相比之下,数据级方法通过操纵训练数据来平衡类,提供了一个灵活且普遍适用的解决方案。它们擅长于定位输入空间的关键区域并避免噪声,使其成为跨分类器的通用和有效的选择(Chawla等人,2004;Galar等人,2011;Jiang等人,2023年)。由于数据级方法的普遍性、灵活性和效率,样本生成是提高少数类的信息内容和提高代表不足类别的分类器性能的合适选择。
然而,上述处理不平衡数据的方法并不适用于多模态会话情绪识别领域。第一个困难是不平衡方法的使用。多模态会话情绪识别数据具有两个显著的特征:会话一致性和模态对齐。简单地将样本生成方法,如随机过采样(Chawla等al.,2004)或SMOTE过采样(Chawlaela.等,2003) 应用到该领域的数据中,不仅会破坏会话的一致性,导致对话质量降低,阻碍信息传输,还引入了不同模态之间不对齐的挑战。这种错位导致生成的样本之间的特征对应不一致,导致模型获得错误的关联。第二个困难是 由于决策边界偏移而导致的某些多数类的性能下降。少数类数据的增加可能会导致模型重新调整其决策边界,以更好地捕获这些新的少数类样本。这种调整可能会导致最初正确分类的大多数类样本的错误分类,从而导致准确性的下降。此外,忽视最初分类良好的多数类样本,而不是过度强调具有挑战性的少数类样本,这可能会破坏表示学习,导致次优建模,并降低模型的鲁棒性。因此,这可能会对该模型的整体性能及其应对各种现实世界挑战的能力产生影响(Zhao et al.,2022a)。我们提出的框架通过解决这两个挑战,实现了优越的性能,具体的方法将在下一节中讨论。
3. 提出的方法
在形式上,与𝑁话语的对话可以被描述为一系列的话语{𝑢1,𝑢2,…,𝑢𝑁}。每一个话语由三种来源的话语水平特征组成,包括声学(a)、视觉(v)和文本(t)模式,可以表示为𝑢𝑖={𝑢𝑎𝑖,𝑢𝑣𝑖,𝑢𝑡𝑖}。预测每个语音𝑢𝑖的情绪标签𝑦𝑖是MMERC的目标。
所提出的框架结构如图3所示,主要包括三个部分: (1)多模态对话的样本生成;(2)基于图融合的多模态节点交互;(3)在分类良好的情况下提高多数类性能。具体来说,为了捕获独立的密集特征,我们首先为每个模态分配两个独立的编码器,以避免模态纠缠。然后,我们进行多模态表示学习,生成具有表达性的多模态嵌入特征。接下来,根据多模态情绪识别对话的特点,利用过采样算法来合成新的少数情绪类多模态数据节点,并利用互信息最大化来保证新合成的多模态节点之间的相关性。将原始节点和合成的新节点构造成一个跨模态全连通图,其中新构造的节点与原始节点之间的权值由附加参数控制。我们将图卷积网络后的特征与编码的特征连接起来,得到融合的特征。最后,我们利用融合的特征和情绪标签来计算交叉熵损失和分类良好的鼓励损失。
3.1 针对多模态对话的样本生成
3.1.1 特征提取
为了保留模态特定的特征,同时避免模态之间的干扰,我们为每个模态创建了一个相应的特征提取器。考虑到上下文影响了对话,我们首先创建了上下文感知的语音特征编码。对于文本模态,我们使用双向长短期记忆网络(LSTM)(霍克勒特和施米德胡伯,1997)对序列文本上下文数据进行编码。对于音频或视觉模式,我们应用一个全连接的网络:
考虑到说话者的个人信息也会影响对话,我们对每个模态使用双向GRU(Chung et al.,2014)来捕捉同一对话中相邻句子之间的自依存关系。说话者嵌入式数据的计算方法如下:
3.1.2 多模态表示学习
直接在原始特征空间中插值容易产生噪声,导致产生的新样本表达能力不足。为了解决这个问题,我们通过模式之间的对比学习来进行多模态表示学习,以增强模式之间的交互作用。这将生成有利于后续过采样操作的表达性多模态嵌入特性。
在之前的研究中,已经表明文本模式比其他两种模态更重要(阿兰德耶洛维奇和泽塞尔曼,2017)。文本模式作为锚点,而其他两种模式作为增强版本。对于每个锚点,生成一批随机抽样的对,包括两个正对和2K个负对。 正样本由同一样本中的文字和相应的声音组成的模态对,以及同一样本中的文字和相应的视觉组成的模态对。负样本是由文本和来自不同样本的其他两种模态组成的模态对。对于每个锚定样本,自监督对比损失(Liu et al.,2021b)计算如下:
3.1.3 多模式对话的过采样
在获得嵌入空间中每个模态的表示后,我们可以对多模态对话进行过采样。对于解决不平衡数据问题,Chawla等人(2003)提出的SMOTE算法(合成少数类样本)是一种简单有效的选择,易于实现的方法。然而,简单地在多模态对话中应用SMOTE不仅会破坏对话的一致性,导致对话质量的降低,阻碍有效的信息传输,而且还会在不同模态之间引入对齐问题。因此,我们采用改进的SMOTE进行样本生成。
SMOTE的基本思想是在嵌入空间中用属于同一类的最近邻样本对目标少数类样本进行插值。 由于我们注意到在同一批中,存在不同会话长度差异很大的情况,我们选择长度与最长会话有很大差异的𝑁个会话,对少数类进行SMOTE过采样算法,并合成新的多模态数据节点。虽然对话本身具有很大的可变性和不确定性的特征,但为了在最大程度上确保对话的一致性,在对话的重采样中,我们首先查询在那个对话中,是否需要对少数类的样本进行重新抽样。如果是,则使用该会话对应的类样本来执行SMOTE过采样算法;如果没有,则使用其他会话中相应的类样本来进行SMOTE过采样算法。
3.1.4 互信息最大化
互信息(MI) 是信息论中的一个概念,它衡量两个随机变量之间的关联程度,即当另一个随机变量已知时,一个随机变量的不确定性降低了多少。互信息越高表示两个随机变量之间的相关性越强,而互信息为0表示它们之间没有关系。MI被广泛应用于机器学习、深度学习和数据挖掘,以评估两个变量之间的关系和关联强度。Alemi等人(2016)首次将MI与深度学习模型集成起来。从那时起,许多工作(Bachman等人,2019年;他等人,2020年;Amjad和Geiger,2019年)已经研究并证明了最大化MI的好处。在本文中,我们利用互信息最大化来确保生成数据的模式之间的对齐。
为了最大化新生成的多模态数据节点之间的相关性,我们采用了一种最大化这些节点模态之间的互信息的方法。我们优化了两个模态对(文本、声学)和(文本、视觉)的边界,如前面所述,文本模态提供了更多的信息。为了最大化多模态输入对之间的MI,我们采用(Barber and Agakov,2004)来计算MI的精确下界,使用𝑞(𝑦∣𝑥)来近似𝑝(𝑦∣𝑥)。其计算公式为:
其中,𝑁为训练批处理的大小。𝑡𝑣和𝑡𝑎是两个预测因素的概率之和。然后利用非参数估计分别对不同类别(负和非负)的样本进行高斯混合模型建模。𝐻(𝑌)的计算方法为:
式中,𝝁为均值向量,𝜮为协方差矩阵。det(𝜮)是𝜮的决定因子。𝑐表示为负性或非负性。在该层上最大化MI下界的损失函数为:
多模态会话样本生成小节包含每个模态的独立特征提取,利用通过对比技术的多模态表示学习。根据多模态情绪识别对话的特点,采用过采样算法为少数情绪类合成新的多模态数据节点。此外,互信息最大化被应用于确保模式之间的对齐。首要目标是提高生成的多模态会话样本的质量,有助于更有效和更真实的会话数据合成。
3.2 基于图的融合
3.2.1 跨模态融合
3.2.2 图融合学习
为了在网络内预定的语义区域中结合模态间和模态内的上下文信息,我们在每一层上使用图卷积操作。如改进的卷积操作(Chen et al.,2020)所述:
在本小节中,一个跨模态图卷积网络(GCN)将会话建模为无向图。节点以三种形式表示话语,而边连接着相关的节点。对于原始节点和生成节点的边权值,都使用附加参数计算以增强控制。图融合学习采用带有超参数的卷积运算来优化融合和有效的信息传播。
3.3 通过良好的鼓励损失提高大多数类性能的表现
https://blog.youkuaiyun.com/roaddd/article/details/128167937
前面的讨论中,每个话语𝑖的三种模式的表示可以进一步细化为𝐾层叠加后的𝐨𝑎𝑖,𝐨𝑣𝑖,𝐨𝑡𝑖。一个分类器被用来预测每个话语的情绪:
少数类数据的增加可能会导致模型重新调整其决策边界,以更好地捕获这些新的少数类样本。这种调整可能会导致最初正确分类的大多数类样本的错误分类,从而导致准确性的下降。 此外,忽视最初分类良好的大多数类样本,而不是过度强调具有挑战性的少数类样本,这可能会破坏表示学习,导致次优建模,并降低模型的鲁棒性。
研究(Zhao et al.,2022a;Wan等人,2022)表明,加强分类良好的样本的学习可以增强分类良好的样本部分的表示学习,减少数据的能量损失,并提高模型的对抗鲁棒性。为了减轻少数类数据的增加对分类器的不利影响,我们通过添加奖励来改进情绪分类器模块,即鼓励分类良好的样本恢复其对学习过程的贡献,从而最大限度地提高在分类良好的样本上模型的准确性。分类良好的鼓励损失的计算如下:
其中,𝛼表示多模态表示学习权重,𝛽表示MI最大化权重。调节分类良好的鼓励损失的影响的超参数是𝜁。
在关于提高多数类性能的小节中,我们引入了一种策略来解决由增强的少数类样本所带来的挑战。提出了分类良好的鼓励损失,以防止最初正确分类的多数类样本的错误分类。训练过程包括细化模态表示,使用具有交叉熵损失和l2正则化的情绪分类器,并纳入分类良好的鼓励损失,以减轻增加的少数类样本的影响。