(2023ACL) ConFEDE: Contrastive Feature Decomposition for Multimodal SentimentAnalysis

ConFEDE是一种新型的多模态情感分析框架,结合对比表征学习和特征分解,提升视频内容情感预测的准确性。通过分解视频的文本、视觉和音频模态为相似和不相似特征,利用对比学习增强多模态信息表征,尤其关注文本模态的中心地位。在CH-SIMS、MOSI和MOSEI数据集上,ConFEDE表现出优越性能,证明了其在多模态情感分析领域的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

多模态情感分析旨在预测视频内容的情感。最近的研究表明,多模态情感分析关键取决于学习多模态信息的良好表征,而表征应包含不同模态间一致的模态不变表征和模态特定表征。在本文中,我们提出了一个统一的学习框架ConFEDE,它联合进行对比表征学习对比特征分解,以增强多模态信息的表征。它将视频样本的三种模式(包括文本、视频和音频)分解为相似特征和不相似特征,并通过以文本为中心的对比关系来学习。我们在CH-SIMS、MOSI和MOSEI上进行了广泛的实验,以评估各种最先进的多模态情感分析方法。实验结果表明,在这些数据集上,ConFEDE在一系列指标上优于所有baseline。

1. Introduction

      多模态深度学习包括一起解释和分析多模态信号,其中每个模态都是指体验和感觉事物的一种方式,例如视觉、音频或语言模态。随着Instagram、TikTok、Facebook等在线社交媒体的广泛普及,包含多种形态的视频成为主要的信息载体,这给内容推荐和分类带来了新的挑战,例如视频问答(Lei et al., 2021;Li et al., 2020),视频字幕(Ging et al., 2020;Li et al., 2020)和视频检索(Akbari et al., 2021;Lei et al., 2021)。

       传统的情感分析主要基于语言,而多模态情感分析(MSA)通过利用内容的视觉和音频模态中可用的额外信息来辅助基于语言的预测,从而预测人类的情感。在这里,文本模态包含了口语的语义视觉模态提取说话人的面部特征(例如,头部方向、面部表情和姿势)音频模态反映了对话语的强调(例如,通过音高、带宽和强度)。由于几个原因,MSA最近在研究中得到了很多关注。一方面,由于社交媒体内容的丰富,商业利益正在从单纯的文本判断用户意见/情绪,转向基于视频的更全面的多模态分析。另一方面,短视频平台(如TikTok、Instagram)允许用户轻松地创建包括视觉信息、音频和插入文本在内的多模态内容,而这些模态有时是嘈杂的,甚至是相互矛盾的。因此,除了文本或语言本身之外,多模态信息的存在是对视频整体情感做出透彻结论的必要条件。  

      多模态融合对于深入了解这些视频场景至关重要(Baltrušaitis等人,2018),并已被证明对许多下游任务有帮助。针对MSA问题,人们提出了多种多模态融合技术,其中一种基本解决方案是将提取到的各模态特征进行串联,然后再进行下游回归或分类。最近的工作已经认识到跨模态识别模态不变信息并融合它们以加强情绪预测的重要性(Hazarika等人,2020;Zadeh等人,2018a;Rahman et al., 2020;Sun等人,2020)。

      虽然模态不变信息有助于加强对内容的理解,但也有不同模态的情感相互矛盾的情况。例如,当一个人用“今晚我终于可以轻松地休息了”或“我太感谢你了”这样的话来感谢某人时,如果不看语气、面部表情和手势等非语言线索,就很难断定这种情绪是积极的还是消极的。事实上,许多讽刺的观点都是通过非语言标记来表达的。在这些情况下,不能简单地通过所有方式中的多数投票来判断总体情绪。因此,尊重模态之间一致性和不一致性的多模态表征学习最近显示出很大的前景(Yu et al., 2020;Hazarika et al., 2020)。

        在本文中,我们提出了一个对比特征分解框架ConFEDE,它将每个样本内的模态分解和跨样本的监督对比学习集成在一个统一的对比学习框架中。我们的主要贡献总结如下:

(1) 我们基于定制的数据采样器,将样本间对比学习和样本内模态分解集成到一个简单的统一损失函数中,该采样器允许我们对正/负数据对进行采样以执行这两个学习任务。

(2) 我们提出将每个模态分解为一个相似特征和一个不相似特征,并以文本的相似特征作为锚点来构建所有分解特征之间的对比关系。这是因为观察到情感分析仍然主要集中在文本和口语上,而其他模式可以提供额外的信息来帮助预测。

(3) 在上述多模态表示学习的基础上,我们进一步引入了依赖于每个分解的模态表示的多任务预测损失,使模型能够从多模态预测和单模态预测中学习。

     我们主要在CH-SIMS (Yu et al., 2020)基准上评估ConFEDE,该基准包含每个样本的单模态和整体情绪标签。结果表明,所提出的方法明显优于许多最先进的多模态情感分析方法。为了测试在没有提供单模态标签的情况下的能力,我们进一步对MOSI (Zadeh等人,2018a)和MOSEI (Zadeh等人,2018b)进行了实验,其中每个样本只包含一个整体情感标签。这表明,我们提出的方法在许多没有单模态标签的性能指标上也可以比最先进的方法取得更好的性能。我们提供广泛的消融研究,以显示在ConFEDE中每个设计组件的有效性和必要性。

2 Related Work

在本节中,我们讨论了MSA和对比表征学习的相关工作。

2.1 Multimodal Sentiment Analysis

      先前关于多模态情感分析的工作主要集中在基于文本和视觉的情感预测上(Zhu et al., 2022;Ji et al., 2019;刘等人,2019)。然而,人们对使用文本、音频和视觉这三种模态来分析情感的兴趣越来越大(Yu et al., 2020,2021;Rahman et al., 2020)。Zadeh等人(2016)是最早提出多模态词典的人之一,该词典可以学习面部手势和口语之间的动态相互作用,以模拟情绪。随后,他们引入了一个张量融合网络(TFN),以端到端方式学习三种模态的模态内和模态间动态(Zadeh et al., 2017)。此外,他们提出了一个由长短期记忆(LSTMs)组成的记忆融合网络(MFN)来学习三种视图(文本、视频和音频)的特定视图和跨视图交互,以提高情感分析的性能。Rahman等人(2020)提出了一个多模态自适应门(MAG)来微调BERT (Devlin等人,2019)对多模态数据的处理,以提高情感分析性能。然而,这些先前的工作并没有考虑到特定于模态的信息。

        为了更好地研究模态特定信息对MSA的影响,Yu等人(2020)构建了一个新的多模态情感分析数据集CH-SIMS,该数据集为样本的每个模态都包含一个单模态标签。实验表明,简单地将单模态预测作为学习目标中的子任务集成后,整体情绪预测有很大的提高。

      Hazarika等人(2020)进一步将每个模态分解为模态不变表示和模态特定表示,并使用平方Frobenius范数损失作为正则化器。然而,他们在对预测结果进行正则化的同时,对所有模态一视同仁,忽略了模态的不同有效性。在实际情况下,与视觉和音频相比,文本通常更有效地完成MSA任务。换句话说,它比其他两种模态“噪音”小。此外,他们使用中心矩差异损失来推动模态不变表示接近,并使用Frobenius范数来推动模态特定表示正交,而在我们的方法中,我们将上述机制集成到单个损失函数中。然后他们用生成的特征重构原始特征,对分解后的特征进行正则化。相反,我们避免使用这种方法,并使用单模态预测任务对分解的特征进行正则化。为了提高分解性能,我们进一步通过定制设计的采样方法将样本之间的监督对比学习聚合到我们的框架中。

       同时,HyCon (Mai et al., 2021)介绍了一种MSA的对比学习方法,同时考虑了样本间和样本内的对比。然而,它们忽略了每个分解特征的正则化。相反,在ConFEDE中,样本内特征对比是基于以文本相似特征为中心的特定模式构建的。此外,在进行样本间对比学习时,HyCon基于MSA标签随机采样正对和负对。相反,我们设计了一个数据采样器,它考虑了模态之间的标签和相似性来检索正/负对。由于这些原因,我们的方法在MOSI (Zadeh等人,2018a)和MOSEI (Zadeh等人,2018b)的大多数指标上击败了HyCon,并且能够利用单模态标签进一步提高性能,例如在CH-SIMS (Yu等人,2020)上。

2.2 Contrastive Representation Learning

       对比学习通过对比正对和负对在表征学习中取得了巨大成功(Akbari et al., 2021;Hassani and Khasahmadi, 2020;Chen等人,2020)。Akbari等人(2021)使用多模态对比学习训练视频-音频-文本转换器(VATT)来对齐视频-文本和视频-音频对,从而在各种计算机视觉任务(例如,音频分类和视频动作识别)上实现最先进的技术。Hassani和Khasahmadi(2020)提出通过对比从图的不同结构视图获得的编码来学习节点和图级表示,并在各种图分类基准上达到最先进的水平。Chen等人(2020)提出了一个自监督框架SimCLR,通过同一图像样本的增强视图之间的对比损失来学习视觉表示。

       Khosla等人(2020)将自监督对比学习扩展到监督环境,即对来自不同类别的样本进行对比。他们还声称,监督设置对于超参数更稳定。我们设计了一个新的对比学习框架,该框架利用样本内和样本之间的模态对比来增强由特定配对模式指导的统一对比损失中的多模态表示。此外,我们提出了一种数据采样器,将相似样本作为正对检索,这与之前通过数据扩增获得正对的工作形成了对比。

3 Methodology

   在本节中,我们介绍了ConFEDE的整体架构,然后详细描述了学习多模态表示的对比特征分解过程。

3.1 Model Architecture

图1: ConFEDE框架的结构。T_{s}T_{d} 表示投影的相似和不相似文本特征。同样,V_{s}\, V_{d}\, A_{s} \, A_{d} 分别是视觉和音频模态的投影相似和不相似特征。 

       ConFEDE的总体体系结构如图1所示。给定一个样本,我们首先用相应的特征提取器对每个模态进行编码。具体来说,我们使用BERT的[CLS]标签对文本(即T)进行编码,并使用两个独立

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值