Adversarial alignment and graph fusion via information bottleneck for multimodal emotion recognition

在这里插入图片描述

摘要

随着社交媒体和人机交互技术的快速发展,对话中的多模态情感识别(MERC)任务开始受到广泛的研究关注。MERC的任务是从不同的模式中提取和融合互补的语义信息,从而对说话者的情绪进行分类。然而,现有的特征融合方法通常直接将其他模态的特征映射到同一特征空间中进行信息融合,这并不能消除不同模态之间的异质性,使后续的情绪类边界学习更加困难。此外,现有的图对比学习方法通过最大化多个视图之间的互信息来获得一致的特征表示,这可能会导致模型的过拟合。为了解决上述问题,我们提出了一种新的基于信息瓶颈的对抗性对齐和图融合的对话中多模态情绪识别(AGF-IB)方法。

首先,我们将视频、音频和文本特征输入到一个多层感知器(MLP)中,并将它们映射到单独的特征空间中。其次,我们通过对抗性表示,分别为这三个模态特征建立了一个生成器和一个判别器,以实现模态之间的信息交互,消除模态之间的异质性。第三,我们引入图对比表示学习来捕获模态内和模态间的互补语义信息,并学习情绪类别的类内和类间边界信息。此外,我们没有最大化多个视图之间的互信息(MI),而是使用信息瓶颈理论来最小化视图之间的MI。具体来说,我们分别构建了三个模态特征的图结构,并对相同模态的不同情绪节点和不同模态的相同情绪节点进行对比表示学习,以提高节点的特征表示能力。最后,我们使用MLP来完成说话者的情感分类。大量实验表明,AGF-IB可以提高IEMOCAP和MELD数据集的情绪识别准确性。此外,由于AGF-IB是一种通用的多模态融合和对比学习方法,它可以以即插即用的方式应用于其他多模态任务,如幽默检测。

1. 介绍

对话中的多模态情绪识别(MERC)任务是将不同模态特征(如文本、视频、音频等)的语义信息相结合,来识别说话者在当前时刻的情绪[1]。随着深度学习技术和计算资源的不断发展,MERC也开始被广泛应用于许多实际的社交媒体场景中。例如,在人机对话系统中,交互系统可以根据人机对话的数据分析获取用户当前的情绪状态,然后生成适合场景的词。因此,准确识别用户当前的情绪状态具有较高的实际应用价值[2]。

然而,由于视频、音频和文本特征的空间嵌入是不一致的[3,4],MERC必须消除多模态异构数据的模态差距。目前消除不同模态数据差距的主流特征融合方法是将它们直接映射到同一特征空间中进行特征表示[5]。例如,张量融合网络(TFN)[6]利用张量外积运算将不同的模态特征映射到三维特征空间中,用于多模态特征向量的融合表示。低秩融合网络(LFN)[7]利用低秩分解操作,将高度相关的特征向量结合起来,并融合三种模态特征。但是,上述方法强制地将不同的模态特征映射到一个共同的表示空间中,这并不能消除它们的异构性。我们认为,一个合适的特征融合方法应该首先进行模态对齐,然后再进行模态融合。

现有的深度学习方法的另一个问题是,它们不能捕获不同的样本间和类间的语义信息。以图1为例,之前的对比学习工作侧重于学习交互和样本间的对齐模式。例如,Hu等人[8]提出了通过深度图卷积网络(MMGCN)的多模态融合,来融合不同模态的对话关系和互补的语义信息。Liu等人[9]提出了一种多模态融合网络(MFN),该网络利用一种注意力机制来考虑不同模态的重要性,并获得了一个具有模态相互作用的多模态融合向量。上述方法很难学习到明确不同情绪类别之间的类别界限。然而,越来越多的研究表明,捕捉样本和情绪类别之间的关系有助于更好的情绪分类。因此,如图1 ©所示,我们构建了一个模态间和类间对比学习范式来学习更有区别的情绪特征表示
在这里插入图片描述
因此,如何消除不同模态之间的异质性,捕获模态内和模态间的互补语义信息以及类内和类间的差异仍然是一个有待解决的问题。

此外,现有的图对比学习方法通过最大化多个视图之间的互信息来获得一致的节点表示,这可能导致模型的过拟合。我们认为一个好的图对比学习方法应该构造结构上异构但语义上相似的多重视图

为了解决上述问题,我们提出了一种新的基于信息瓶颈的对抗性对齐和图融合方法,用于对话中的多模态情感识别,即AGF-IB。首先,我们分别使用RoBERTa [10]、3D-CNN [11]和OpenSMILE [12]来获取文本、视频和音频中的语义信息。其次,我们将提取出的三个模态特征输入到一个多层感知器(MLP)中,并将其映射到单独的特征空间中。第三,我们分别为这三个模态特征建立了一个生成器和一个判别器,然后使用对抗性学习来实现跨模态特征融合,消除了不同模态之间的异质性。第四,我们通过信息瓶颈(IB)构建了一种新的图对比表示学习架构,通过对同一模态中不同情绪的节点和不同模态中相同情绪的节点进行对比表示学习,捕捉模态内部和模态之间的互补语义信息以及类内和类间差异,并利用 IB 使多视图之间的互信息最小化,从而获得结构异构但语义相似的多视图和更清晰的边界分布表示。最后,我们使用 MLP 进行情感分类。

1.1 贡献

因此,MERC不仅要考虑消除视频、音频和文本三种模式之间的异质性,还要学习如何捕获模式内和模式之间的互补语义信息以及类内和类间的差异。受上述分析的启发,我们提出了一种新的对抗对齐和图融合,用于多模态情绪识别(AGF-IB),以学习更好的情绪类边界信息。本文的主要贡献总结如下:

  • 提出了一种新的基于信息瓶颈的对抗性对齐和图融合的多模态情绪识别方法,即AGF-IB。AGF-IB可以学习到更好的情绪类别边界信息。
  • 设计了一种新的具有对抗性学习的跨模态特征对齐方法,以消除模态间的异质性
  • 提出了一种新的基于信息瓶颈的图对比表示学习框架,以增强模态内和模态间语义信息的相关性,学习类内和类间的差异,获得结构异构但语义相似的多视图。
  • 最后,在MELD和IEMOCAP两个基准数据集上进行了广泛的实验。实验结果表明,AGF-IB的情绪识别效果优于现有的比较算法。此外,AGF-IB还可以以即插即用的方式应用于其他多模态任务,例如,幽默检测。

2. 相关工作

2.1 多模态对话情感识别

作为一项跨学科的研究(如脑科学和认知科学等),MERC受到了[13]研究者的广泛关注。目前主流的MERC研究主要包括序列上下文建模、说话者关系建模和多模态特征融合建模。序列上下文建模方法主要结合上下文的语义信息,对当前时刻的情绪进行分类。说话人关系建模方法主要通过图卷积操作来提取说话人之间对话关系的语义信息。多模态特征融合建模方法主要是通过捕获模态内和模态间互补的语义信息来实现跨模态特征融合。

基于序列上下文的建模方法中,Poria等[14]提出了双向长-短期记忆(Bi-LSTM),该方法可以提取正向和反向序列的上下文语义信息。然而,bc-LSTM在建模长距离上下文依赖关系方面的能力有限。针对上述问题,Beard等人[15]提出了递归多注意力(RM),即使用多门控记忆单元迭代更新记忆网络,从而实现全局上下文信息的记忆。虽然基于上下文的序列建模在情绪识别中可以取得一定的效果,但它忽略了模态内和模态间的互补语义信息

基于多模态特征融合的建模方法中,Zadeh等人[6]提出了张量融合网络(TFN),该网络通过张量外积操作将多模态特征映射到三维空间中,以实现多模态特征之间的信息交互。但TFN的特征维数较高,容易产生过拟合效应。为了缓解TFN的问题,Liu等人[7]提出了一种低秩融合网络(LFN),该网络通过低秩分解操作实现了张量的降维,并实现了情绪识别方面的性能提高。Hu等人[8]提出了通过深度图卷积网络(MMGCN)实现的多模态融合,可以有效地利用多模态特征之间的互补语义信息。虽然上述方法都可以实现跨模态特征融合,但它们都将不同模态的特征映射到同一特征空间中,这使得消除不同模态之间的异质性具有挑战性

基于说话人关系的建模方法中,Ren等[16]提出了一种潜在关系感知图卷积网络(LR-GCN),该网络首先构建了一个说话人关系图,然后引入了一种多头注意力机制来捕捉话语之间的潜在关系。然而,全连通图引入了噪声信息。Nie等人提出了基于相关性的图卷积网络(C-GCN)[17],该方法可以捕获模态间和模态内的相关性,实现多模态信息的有效利用。基于说话人关系的建模方法虽然可以充分利用说话人对话关系的语义信息和跨模态语义信息,但它忽略了不同情绪类别之间的差异

2.2 生成对抗学习

在这里插入图片描述
在对话中的多模态情绪识别领域,数据不平衡是一个常见的问题,它会导致模型[18]的有偏学习。因此,研究人员开始使用生成式对抗性学习来生成符合原始数据分布的新样本。具体来说,以前的工作通过最小化生成器和判别器学习到的数据分布来生成新的样本

Su等人[3]提出了语料库感知情感循环GAN(CAMmoCyGAN),创新地引入了目标到源生成器,生成更接近原始数据分布的新样本。CAEmoCyGAN增强了模型学习无偏表征的能力。Chang等人[19]提出了对抗性交叉语料库集成(ACCI),该集成使用对抗性自动编码器生成具有上下文语义信息的样本,并使用情绪标签作为模型的辅助约束。虽然使用生成对抗学习生成的新样本可以有效缓解数据不平衡问题,但消除基于GAN的模式之间的异质性仍然是一个开放的问题。

2.3 对比学习

自监督学习(SL)是深度学习(DL)的一个重要分支,由于其强大的学习表征能力而受到越来越多的研究关注。对比表示学习(CRL)是SL的一种代表性方法之一。具体来说,CRL通过不断缩小正样本间的距离和扩大正样本和负样本之间的距离(如欧几里得距离和马氏距离等)来学习判别特征。以往的工作通常通过最大化模型输入和学习表示之间的互信息(MI)来获得特征的表示。

Li等人[20]提出了对比预测编码(CPC)来解决情绪识别任务中缺乏大规模数据集的问题。通过无监督的对比表征学习,CPC可以从未标记的数据中学习潜在的情绪语义信息。Kim等人[21]提出了对比对抗学习(CAL)来解决现有方法过于依赖监督信息的问题。CAL通过比较较强情绪特征的样本和较弱情绪的样本来学习复杂的语义情绪信息。

3. 准备工作

在本节中,对话中的多模态情绪识别(MERC)任务被用数学术语来定义。此外,我们还描述了不同模式的数据预处理方法如下: (1) Word嵌入:消除单词的歧义,本文使用RoBERTa [10]获得的嵌入表示词向量。(2)视觉特征提取:我们使用3D-CNN捕捉更深的图像特性在视频和减少噪声信息的引入。(3)音频特征提取:我们使用OpenSMILE [12]从不同的扬声器中提取音频信号。

3.1 多模态特征提取

本文的实验数据集IEMOCAP和MELD由三种形式组成,它们分别以文本、视频和音频的形式存储。对于不同模态的特征,我们使用特定的数据预处理方法进行特征提取,以获得具有较低噪声信息和丰富语义信息的特征向量表示。我们将描述如何对每个模态的特征进行编码,如下所示。

3.1.1 词嵌入

为了消除单词的歧义,获得具有丰富语义信息的特征向量,根据之前的工作[23–25],我们使用RoBERTa模型[10]对单词进行编码。在本文中,我们使用句子编码对说话人的每个话语进行编码,得到包含整个句子的上下文语义表示𝜑𝑖={𝜑1𝑖,𝜑𝑛𝑖,𝜑𝑛𝑖,…,𝜑𝑚𝑖}。其中,𝑚是单词嵌入的维度。由于计算资源有限,我们只采用由RoBERTa模型编码的前100维向量作为我们的单词嵌入表示𝜉?

3.1.2 视觉特征提取

说话者的面部表情和行为反映了他内心的情绪状态。因此,我们从视频帧中捕捉到说话者的面部表情和动作变化,从而提取出与说话者情绪变化相关的语义信息。在本文中,根据之前的工作[11,26,27],我们使用3D-CNN模型获得了一个512维的特征向量𝜉𝑣。

3.1.3 音频特征提取

声音信号中声音的波动也反映了说话者心脏的情绪变化。有时,一个人的行为可能不能真正反映他的情绪,但他的语气变化不能被伪造。因此,在之前的工作[11,26,27]之后,我们使用OpenSMILE来提取扬声器的音频特征𝜉𝑎。

3.2 信息瓶颈

补充介绍:
在这里插入图片描述

信息瓶颈理论(IB)描述了神经网络训练过程中的特征拟合和特征压缩两个过程。IB理论认为,在训练过程中,模型应保持与任务相关的信息,同时丢弃与任务无关的冗余信息,这可以提高模型的鲁棒性。形式上,对于神经网络的输入数据𝑥,下游任务的标签信息为𝑦,使用IB策略可以得到信息压缩的特征表示ℎ。IB的优化目标如下:
在这里插入图片描述

在这里插入图片描述

4. 方法

4.1 任务定义

对话中的多模态情绪识别(MERC)的目的是从包含文本、声学和视觉模式的对话中预测每个话语的情绪标签。MERC的目标是通过综合考虑话语的文本内容、声音特征和视觉信息,从预定义的情绪类别中确定每个话语所表达的情绪状态。具体来说,在MERC中,对话被视为由𝑁连续的话语{𝑢1,𝑢2,…,𝑢𝑁}和𝑀说话者{𝑠1,𝑠2,…,𝑠𝑀},每一个话语都由对话中一个特定的说话者说出。此外,话语𝑢𝑖还包括不同形式的信息,如文本内容、语音特征和说话者的面部表情。我们将对话中所有话语的文本、声学和视觉模态序列分别表示为[𝜉𝑢1;𝜉𝑢2;…;𝜉𝑢𝑁]∈R𝑁×𝑑𝑢,[𝜉𝑎1;𝜉𝑎2;…;𝜉𝑎𝑁]∈R𝑁×𝑑𝑎,和[𝜉𝑣1;𝜉𝑣2;…;𝜉𝑣𝑁]∈R𝑁×𝑑𝑣,,其中𝑑𝑢为文本维度,𝑑𝑎为音频维度,𝑑𝑣为视频维度。通过结合不同的模态信息,该模型可以更全面地理解和识别对话中所包含的情绪变化和表达方式。

4.2 AGF-IB结构的设计

为了提高多模态情绪识别的性能,我们提出了一种新的信息瓶颈对抗对齐和图融合用于对话中的多模态情绪识别,即AGF-IB。AGF-IB的总体架构如图2所示。

在这里插入图片描述

4.2.1 TGAN:三模态生成对抗性网络

多模态特征为MERC任务提供了更多的情感语义信息。然而,多模态数据具有异构性和有噪声性,这使得跨模态特征融合变得困难。因此,为了有效地消除模态之间的异质性,充分利用多模态的互补语义信息,我们设计了一个三模态生成对抗网络(TGAN)来消除不同模态特征之间的数据分布差异

具体来说,首先,我们使用MLP对三个模态特征进行维数对齐,并将它们映射到三个独立的特征空间中。计算公式如下:
在这里插入图片描述
其次,我们建立了一个文本生成器和一个文本判别器。文本生成器的输入是音频特征𝜉𝑎和视频特征𝜉𝑣。文本判别器的输入是由包含三个模态信息的文本生成器生成的融合特征。文本生成器和判别器的目标优化函数如下:

在这里插入图片描述
第三,我们建立了一个音频生成器和一个音频判别器。输入到音频生成器的是文本特征和视频特征。音频判别器的输入是由包含三个模态信息的音频生成器产生的融合特征。音频生成器和判别器的目标优化函数如下:
在这里插入图片描述
最后,我们建立了一个视频生成器和一个视频判别器。视频生成器的输入是文本特征和音频特征。视频判别器的输入是由包含三个模态信息的视频生成器产生的融合特征。视频生成器和判别器的目标优化函数如下:
在这里插入图片描述
需要注意的是,在训练了三模态生成对抗网络后,我们继续进行后续任务的训练。

4.2.2 说话者关系图构建

我们使用一个图结构来提取说话者对话关系的语义信息。具体地说,我们构造了一个说话者关系的有向图。
在这里插入图片描述

特别是,在MERC任务中,我们按照之前的工作[8,16,27]来构建一个完全连接的对话图,即节点都是在上下文窗口内连接的。此外,在图中只有一种边的类型,即对话关系。由于GCN的计算复杂度是
𝑂(𝑛2),这导致需要较高的计算资源。因此,我们将上下文窗口的大小设置为10。

为了获取节点中的关键语义信息,我们使用注意力机制来计算边的权重,并根据边的权重进行信息聚合。首先,我们使用MLP动态学习节点𝑖和节点𝑗之间的相关性。该公式的定义如下:

在这里插入图片描述

其次,我们使用softmax函数对节点𝑖和节点𝑗之间的相关性进行归一化,得到每条边的注意力得分。该公式的定义如下:
在这里插入图片描述
最后,我们使用GCN和GELU激活函数来更新节点表示。GCN编码的公式如下:
在这里插入图片描述

4.3 IB损失和互信息估计

对于给定的输入数据集𝑋={𝑥1,𝑥2,…,𝑥𝑁},它包含一个来自 𝑝(𝑥𝑡+𝑘∣𝑐𝑡)的正样本和来自𝑝(𝑥𝑡+𝑘)负样本的𝑁−1正样本,InfoNCE损失定义如下:
在这里插入图片描述
然而,样本𝑥𝑖应该来自条件分布𝑝(𝑥𝑡+𝑘∣𝑐𝑡),而不是𝑝(𝑥𝑡+𝑘)。有条件的分布导出如下:

在这里插入图片描述
最小化信息损失等同于最大化互信息的下界。受InfoNCE损失的启发,最小化互信息就等于优化负信息。形式上,相同类型的节点被视为正样本对而不同类型的节点被视为负样本对

在这里插入图片描述

4.4 IMCL:通过IB进行模态内和模态间对比学习

IMCL的目的是学习模式之间的互补语义信息,并通过对比学习方法获得更具区别性的嵌入表示。与现有的图对比学习方法不同,我们使用信息瓶颈理论来最小化多个视图之间的互信息。具体来说,在IMCL中,正样本由相同模态的同类样本表示,而负样本由不同模态的同类样本表示。模态内和模态间对比损失的定义如下:

在这里插入图片描述
在这里插入图片描述

然而,如果等式(18)作为对比损失,该模型可能属于局部最优解。也就是说,𝑠(𝜇,𝜒𝑖)可以被最小化,但𝑠(𝜇,𝛿𝑗)不能被最大化。上述情况是因为,当负样本对之间的相似性为0时,无论正样本对之间的相似性有多大,模型的对比损失都趋向于最小值。我们的目标是𝑠最小化(𝜇,𝜒𝑖),而𝑠(𝜇,𝛿𝑗)最大化。因此,我们引入了一个正则化项,以确保正样本对之间的相似性可以最大化,而负样本对之间的相似性可以最小化。该公式的定义如下:

在这里插入图片描述
IMCL鼓励同一模态下同一类样本之间的高度相似性,并迫使不同模态下同一类样本之间的低相似性。IMCL和ICCL的整体过程如图3所示。

在这里插入图片描述

4.5.ICCL:通过IB进行类内和类间对比学习

与IMCL类似,ICCL的目标是通过对比学习来学习具有差异的类内和类间语义信息。具体来说,类内和类间对比损失的定义如下:
在这里插入图片描述

与IMCL类似,我们也引入了正则化项来加强正样本对之间的相似性,减少负样本之间的相似性。该公式的定义如下:
在这里插入图片描述
为了理解为什么IMCL和ICCL是有效的,我们引入了对比学习中的两个重要的理论,即对齐和一致性。具体来说,使用对齐来测量正对之间的空间距离,公式定义如下:

在这里插入图片描述
等式的目标(22)与对比学习非常一致。类似地,对于IMCL和ICCL,对齐度量的定义如下:
在这里插入图片描述
通过对IMCL和ICCL的分析,它们可以在提高均匀性的同时实现更好的对齐。

4.6 情感推理子网络

当多模态特征向量通过匹配的注意层后,每个语境话语都可以表示为一个多模态融合向量𝑧𝑓。我们使用多层感知器深度神经网络,称为情绪推理子网络𝑠,权值𝑊基于𝑧𝑓。多层感知器(MLP)由两个具有ReLU激活函数的全连接层组成,并将它们连接到一个决策层。情绪推理子网络𝑠的最大似然函数定义如下,其中𝜑为情绪预测的标签:

在这里插入图片描述

4.7 模型训练

通过对IMCL和ICCL的加权求和,得到了模态内和模态间、类内和类间的对比损失。该公式的定义如下:
在这里插入图片描述
模型训练的总体损失是通过将分类损失和对比损失相加得到的。模型训练损失的公式定义如下:
在这里插入图片描述
在这里插入图片描述

5. 实验

数据集:MELD、IEMOCAP

实验结果:
在这里插入图片描述

在这里插入图片描述

6. 结论和未来工作

在本文中,我们提出了一种新的基于信息瓶颈的对抗性对齐和图融合方法,用于对话架构中的多模态情绪识别(AGF-IB)模型,该模型可以实现跨模态特征融合、模态内和模态间对比表示学习,以及类内和类间表示学习。此外,AGF-IB利用信息瓶颈来最小化多个视图之间的互信息,以获得结构上异构但语义上相似的多个视图。具体来说,我们首先引入了一种基于对抗性学习的跨模态特征融合方法来消除不同模态之间的异质性。其次,全面考虑内部和内部之间的关系和内部之间的关系,并获得一个紧凑的节点表示,我们设计一种新颖的图对比学习架构通过IB提高节点的表示能力通过增加相同模式的不同情绪标签之间的距离和缩小相同的情绪之间的距离,和最小化MI之间的观点。最后,我们使用多层感知器(MLP)进行情绪分类。

在未来的工作中,我们考虑使用扩散模型进行跨模式的特征融合,以生成包含更多语义信息的融合特征。此外,我们还将考虑将我们的方法转移到其他多模态任务中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值