【DCCMCI】多模态情感分析的层次去噪、表征解纠缠和双通道跨模态-上下文交互

abstract

多模态情感分析旨在从文本、声音和视觉数据等各种模态中提取情感线索,并对其进行操作,以确定数据中固有的情感极性。尽管在多模态情感分析方面取得了重大成就,但在处理模态表征中的噪声特征、消除模态表征之间情感信息的实质性差距以及探索表达模态之间不同情感的上下文信息方面仍然存在挑战。为了应对这些挑战,本文提出了一个新的多模态情感分析(MSA)框架。

  1. 首先,我们介绍了分层去噪表示解纠缠模块(HDRD),该模块采用分层解纠缠技术。这确保了公共和私人情感信息的提取,同时消除了模态表示的干扰噪声
  2. 此外,为了解决情感信息在模态之间分布不均的问题,我们的多模态表示增强模块(IMRE)通过从文本表示中提取与非文本表示相关的情感信息来增强非文本表示
  3. 接下来,我们介绍了一种新的交互机制,双通道跨模态上下文交互模块(DCCMCI)。该模块不仅挖掘模态内部的相关情境情绪信息,而且还探索模态之间的正相关和负相关情境情绪信息。

我们在MOSI和MOSEI两个基准数据集上进行了广泛的实验,结果表明我们提出的方法提供了最先进的方法。

intro

最初,情感分析涉及使用自然语言处理(NLP)技术从主观文本中提取情感信息,包括观点和感受(Zhang, Xu, & Zhao, 2020)。

然而,Twitter、TikTok和YouTube等社交媒体平台的快速扩张导致了包含多模态信息(包括文本、声学和视觉元素)的视频数据的爆炸式增长(Shi, Fan, Wang, & Zhang, 2022)。传统的基于文本的情感分析现在难以处理这些数据的复杂性,这促使人们对多模态情感分析越来越感兴趣,多模态情感分析从各种模态中提取态度、观点和情感信息(Su & Kuo, 2022)。同时,移动设备的广泛使用不仅有助于捕获来自用户的各种模态情绪线索(Michalis, Vassilis, Nicholas, & Petros, 2019),而且还可以在各种经济和社会部门中应用多模态情绪分析(Wang et al, 2022)。

因此,越来越多的研究人员正在深入研究这个有前途和不断发展的领域。

近年来,深度学习方法主导了多模态情感分析研究,旨在利用多模态数据之间的互补情感信息来构建复杂的深度学习模型(Abdu, Yousef, & Salem, 2021;赵,贾,杨,丁,& Keutzer, 2021)。虽然这些方法在准确性上有所提高,但挑战仍然存在(Zhu, Zhu, Zhang, Xu, & Kong, 2023)。

考虑到文本、声学和视觉表征之间的显著分布差距,有效的表征解纠缠提出了关键挑战。现有方法通过在多模态情感分析中引入域分离来解决这个问题,将表示划分为模态不变和模态特定的子空间,以获得适当的多模态表示(Bousmalis, Trigeorgis, Silberman, Krishnan, & Erhan, 2016;Hazarika, Zimmermann, & Poria, 2020)。然而,每种情态表示不仅包含表达共同和私人情感的信息,而且还包含相当数量的无关噪声,这将大大降低情感分析任务的准确性。因此,挑战在于获得多模态表示,以平衡公共和私人情绪,同时减轻噪音的影响。

多模态情感分析的另一个挑战是情态信息质量的显著差异,导致情态信息在情态表示之间的分布不均匀。为了解决这个问题,经常需要增强表示信息。目前的方法是从非文本模态中提取与文本模态相关的情感信息,以加强文本表示(Wang et al ., 2019)。然而,这种方法并不能完全解决非文本表示中的情感信息稀缺问题。利用来自文本表示的情感信息来增强非文本表示仍然是一个难题。

模态交互带来了另一个挑战,因为多模态数据中的情感信息通常是互补的。通过模态交互探索这些互补的信息片段以生成有效的多模态表示是至关重要的。然而,目前的方法往往忽略了模态之间的负相关上下文信息,尽管它在某些上下文中(如讽刺或传递坏消息)具有潜在的重要性(Vaswani et al, 2017)。有效地关注模式之间的正相关和负相关上下文情绪信息仍然是一项具有挑战性的任务。

针对上述挑战,我们引入了一种新的多模态情感分析(MSA)框架。

首先,我们采用分层解纠缠技术将每个模态的表示投影到模态公共、私有和噪声子空间中。然后对这些陈述进行约束,以确保其适当性。

其次,认识到情态表征之间情感信息的显著差异,我们的目标是利用语篇情态中丰富的情感信息来增强听觉和视觉模态。此外,我们试图挖掘每个模态内部和模态之间的上下文信息,以丰富多模态表示的情感语义。

我们的研究贡献可以概括如下:引入了一种新的多模态情感分析(MSA)框架,解决了多模态情感分析中的关键挑战。通过分层解纠缠、利用文本情感信息和挖掘上下文线索,我们的框架旨在提高多模态情感分析的有效性和准确性。

•我们引入了一个分层去噪表示解纠缠模块,该模块通过表示约束分解模态表示。这允许模态表示结合共性和个性信息,同时消除可能对情感分析任务产生负面影响的噪声。

•我们设计了一个多式联运表示增强模块,以弥合模式之间的差距。该模块从文本表示中提取与声音和视觉内容相关的情感信息,从而弥合文本和非文本模式之间的实质性鸿沟。

•我们引入了一个双通道跨模态上下文交互模块,它利用多种注意机制同时强调模态内部和模态之间互补的上下文情感信息。这种方法能够提取语义丰富的上下文线索。

related work

随着社交网络的广泛采用和深度学习技术的快速发展(Biswas & Tešić, 2022),多模态情感分析已成为多模态领域研究的重点。这种方法利用多种数据源,包括文本、声学和视觉信息,来理解情感(Wu, Lin, Zhao, Qin, & Zhu, 2021)。基于深度学习的多模态情感分析旨在建立多模态数据与情感极性之间的可靠映射,这一任务依赖于多模态数据的有效融合。现有的研究根据其融合方法可大致分为注意无关方法和基于注意的方法。

注意力无关方法

这些早期的方法包括Zadeh、Chen、Cambria、Poria和Morency(2017)提出的TFN,利用笛卡尔积融合模态表征。针对TFN的复杂计算,Liu等(2018)提出LMF,利用低秩张量简化计算复杂度。随着特征融合技术的发展(Yu, Yu, Fan, & Tao, 2017),研究人员尝试对表征进行分解和再融合,旨在通过因子分解学习更有特色的表征(Chen, Shen, Ding, Deng, & Li, 2024)。例如,Wang, Yan, Lee和Livescu(2016)使用深度变分CCA重新分析了LVMS,获得了包括私有变量和共享变量的模态变量。Rajagopalan、Morency、Baltruaitis和Goecke(2016)提出的v -LSTM网络使用多视图LSTM块在多个模态之间建模一致和互补的信息。Tsai、Liang、Zadeh、Morency和Salakhutdinov(2018)设计的MFM模型将多模态数据的联合表示分解为模态内相关性和模态间相关性。Hazarika等人(2020)提出了MISA框架,该框架使用不同的编码器从模态不变和模态特定的角度学习模态表示。虽然这些方法确实在一定程度上提高了情感预测的准确性,但不相关噪声的存在会显著影响模型的性能。这是因为缺乏情感信息的噪音往往会干扰情感分析。此外,对模式内部和模式之间的上下文相互作用信息重视不够。

基于注意力方法

这些方法使用各种注意机制(Li, Cai, Dong, Lai, & Xie, 2023)来实现模态间和模态内的信息交互,以获得更有效的多模态表示(Xiao et al ., 2021)。在MARN模型中,Zadeh, Liang, Poria等(2018)使用多个注意块来获取不同的跨模态情绪上下文,并将其存储在混合记忆块中。Ou, Chen和Wu(2021)在MMLGAN模型中提出了一个多模态局部-全局注意网络,以融合来自不同模态的表征。Transformer (Vaswani et al ., 2017)最初是为机器翻译开发的,因其在序列数据建模上下文中的独特优势而受到关注。研究人员已经探索了它在各个领域的应用。Tsai等(2019)利用MulT对不同时间步长的多模态序列进行交互和融合。Chen, Hong, Guo和Song(2023)提出了TCDN框架,利用三模态协作网络获取模态内和模态间的上下文情感信息,同时消除模态之间的不相关特征。Wang, Guo等(2023)提出了TETFN,通过文本引导的跨模态映射获得模态间一致的交互信息。Tang, Liu等(2023)提出了BAFN网络,使用动态增强块和双向注意块来探索模态内情绪情境和模态间更高级的情绪情境。Wang, Tian等(2023)提出了TEDT框架,该框架通过基于transformer的模态增强模块,将非语言模态转换为语言模态,同时过滤掉模态之间的错误信息。然而,在获取跨模态交互信息的过程中,上述研究往往侧重于获取表达模态间相似情感的语境信息,而忽略了表达差异情感的语境信息。此外,模式之间的不平衡对跨模式上下文交互的质量提出了重大挑战

获取跨模式交互信息的问题

一些研究人员正试图解决由于不同模式之间的情感差异而导致的不良情境互动问题。Wang等人(2019)提出的RAVEN模型利用跨模态注意将相关非言语信息与语言表征相整合。Rahman等人(2020)的MAG模型使用声学和视觉表示作为辅助特征,微调文本表示在情感空间中的位置。然而,上述研究往往利用非文本模式,以情感信息丰富文本表征。然而,情绪贫乏的非语篇模态对跨模态语境互动的影响一直被忽视。

为了解决这些问题,我们提出了一种新的多模态情感分析方法。通过两轮分解,我们利用分层解纠缠技术将模态表示分解为公共、私有和有噪声的表示。不同的损失函数约束了这些表征,使得学习包含共性、个性和噪声方面的模态表征成为可能。随后,我们通过情感关联挖掘网络从文本表示中提取相关情感信息,从而增强声音和视觉表示。此外,我们利用双通道概念,在完成对模态内语境信息的探索后,同时探索两个通道内模态间正相关和负相关的语境信息。

方法

在本节中,将对所提出的模型的各种结构进行全面的探索。模型总体结构如图1所示,主要包括Feature Extraction模块、HDRD模块、IMRE模块、DCCMCI模块和Sentiment Prediction模块五个部分。将多模态原始数据分为文本模态数据、声学模态数据和视觉模态数据,然后将这些数据输入特征提取模块,获得包含时间和特征信息的三种模态表示。

在HDRD模块中,每个模态的表示都经过了分层表示解纠缠技术,可以学习表示中的公共和私人情感,同时消除与情感无关的噪声。在IMRE模块中,利用去噪后的文本表示来增强非文本表示,从而丰富嵌入在这些非文本表示中的情感信息。

在DCCMCI模块中,该过程首先使用多头自注意来提取每个模态的上下文情感信息。随后,使用双通道机制分别提取模态之间的情境正相关和负相关情绪信息。最后,将挖掘到的各种情感信息与模态表示进行融合。这涉及到连接情态表示,每个情态表示都融合了各种情感信息,以获得具有丰富多模态语义交互的完整多模态表示。这个结果表示然后传递给情绪预测模块,产生最终的多模态情绪预测结果。

任务设置

在基准数据集中,每个包含视频帧集合的视频片段都被分配了一个整体的情感标签。因此,我们构建了一个利用视频片段中的文本、声学和视觉信号来检测情感信息的模型。从每个视频片段中提取不同模态的特征作为模型输入

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值