abstract
多模态情感分析(MSA)利用互补的多模态特征来预测情感极性,主要涉及语言、视觉和音频三种模态。现有的多模态融合方法主要考虑不同模态的互补性,而忽略了模态之间的冲突所导致的歧义(即文本模态预测积极情绪,视觉模态预测消极情绪)。为了减少这些冲突,我们开发了一种新的多模态歧义学习框架,即RMA,通过知识注入解决多模态歧义和用于多模态情感分析的歧义学习。
具体来说,我们引入和过滤外部知识来增强跨模态情感极性预测的一致性。在多模态融合过程中,我们明确测量歧义,动态调整从属模态和主导模态之间的影响,同时考虑多模态的互补性和冲突。实验证明了我们提出的模型在三个公共多模态情感分析数据集CMU-MOSI、CMU-MOSEI和MELD上的优势。
intro
生物系统通过同时发生的多模态信号来感知世界。语言、视觉和语音是日常生活中最常见的三种多模态信号。与生物系统类似,多模态情感分析(MSA)处理多源信号Ou等,同时。MSA是情感分析领域的一个基本但重要的问题,引起了研究人员Zadeh等人(2017)的极大关注;Tsai et al . (2019a);Rahman等人(2020);Yu et al . (2021);Zhao et al . (2022);Yang等(2023)。现有的MSA方法可分为多模态表示中心方法和多模态融合中心方法。前一种模型精确和细粒度表示,以帮助模型预测情绪极性。后者侧重于通过跨模态交互学习跨模态语义关联,并通过跨模态信息传递增强单模态表示。
凡事都有两面性。虽然多模态融合方法通过利用互补的多模态数据有效地提高了多模态情感分析模型的性能,但它们也可能因冲突的多模态数据而误导情绪极性预测。数据收集或特征提取模型可能会产生冲突的多模态数据,导致不同的模态预测不一致的情绪极性。尽管在MSA领域取得了实质性进展,但冲突多模态数据引起的模糊性Chen等(2022b)误导了Du等(2021)的预测结果,这仍然是一项具有挑战性的任务;Fan等(2023);Zhang等(2023a)。
多模态歧义是指模态之间的冲突,如语篇模态预测积极情绪,而视觉模态预测消极情绪。单峰性能的差距是由于提取单峰特征的预训练模型和在多峰信号中使用的收集方法的差异。表现较优的情态称为主导情态,表现较差的情态称为从属情态。图1说明了多模态歧义下的决策过程。具有冲突的多模态数据(即,主导和从属模态)的联合学习可能导致歧义,随后误导模型决策。
具体来说,我们利用跨模态融合模型Tsai等人(2019a)和单模态变压器Vaswani等人(2017)来获得多模态和单模态预测。文本模态与视觉、听觉模态的预测结果不一致。文本模态预测值为+0.23,视觉和听觉模态预测值分别为-0.24和-1.01。多模态预测值为-0.13,跨模态相互作用导致位移值为-0.36。
具有跨模态相互作用的多模态预测会产生错误的预测。我们总结如下:
i)与文本情态(主导情态)相比,视觉和听觉情态(从属情态)的低表现可能导致冲突。
ii)仅考虑多模态互补性的多模态融合方法可能在冲突场景中产生错误的预测。
因此,有必要研究:
i)如何为每种模态生成一致的情绪极性预测,以减轻冲突的情况。
ii)如何动态调整互补和冲突的多模态数据的跨模态交互,生成正确的情感极性预测。
为了回答上述研究问题,我们提出了一种新的多模态歧义学习框架,即RMA,通过知识注入解决多模态歧义和用于多模态情感分析的歧义学习。RMA通过引入和过滤领域知识来提高单个模态的性能,这保证了每个模态尽可能地产生一致的情感极性预测。RMA明确测量模态之间的歧义,并动态调整冲突情景中从属模态对主导模态的影响。
具体而言,我们使用外部多模态情感分析数据集预训练三个领域通用编码器,以提供外部领域通用知识。
我们使用正交损失来确保领域通用和领域特定编码器学习模态的两个不同方面。为了避免过分强调领域通用知识,我们设计了一个跨知识编码器来引入和过滤领域通用知识。
为了准确测量跨模态歧义,我们设计了一个以语言为导向的跨模态歧义学习模块,该模块明确地测量了主模态和混合模态之间的歧义。基于冲突场景下的模糊值,动态调整混合模态对主导模态的影响。多模态融合方法通常需要跨模态交互技术来增强模态。
例如,在利用视觉情态来强化文本情态时,需要将信息从视觉情态转移到文本情态。
我们的贡献如下:
•我们为每个模态引入和过滤外部域通用知识,以确保每个模态产生一致的预测结果。
•我们设计了一个语言引导的跨模态歧义学习模块,在多模态融合之前明确测量主导模态和混合模态之间的歧义。该模块根据歧义值动态控制从属情态对主导情态的影响,同时考虑多模态互补和多模态融合中的歧义。
•我们进行了大量的实验来证明以下方法的有效性:i)领域通用知识注入的有效性,它可以引入和过滤领域特定知识以增强模式。ii)语言引导歧义学习模块的有效性,该模块可以同时考虑多模态互补和多模态融合过程中的冲突。
•与多模态大型语言模型相比,我们提出的模型在公开可用的多模态情感分析数据集CMU-MOSI、MELD、CMU-MOSEI和CMU-MOSEI上仍然取得了出色的性能
related work
多模态情感分析
根据多模态情感分析的方法,我们将现有的研究大致分为两类:一类是通过损失反向传播进行多模态融合;早期的融合方法学习一个联合嵌入。TFM Zadeh et al .(2017)和LMF。刘等人(2018)从张量的角度设计了融合方法。MFN Zadeh等(2018a)提出了一种记忆融合网络,该网络学习特定视图交互和跨视图交互,然后通过多视图门通记忆随时间汇总信息。后期的融合方法是设计动态交互模块来捕获跨模态信息。RAVEN Wang等(2019)提出了一种循环参与变异嵌入网络。RAVEN利用非语言信息通过注意机制对词嵌入进调整。MAG Rahman等(2020)和MAG+ Zhao等(2022)在Bert骨干网中集成了多模态信息。MuLT Tsai等人(2019a)和PMR Lv等人(2021)采用多模态变压器捕捉跨模态相互作用。MTAG Yang等人(2021)提出了模态时间关注来分析多模态序列数据。Zhang等(2023b)利用文本模态从非文本模态中过滤信息,增强了文本模态,同时丢弃了非文本模态信息。Yu等人(2023)引入了一个预训练的光源适配器,以纳入额外的知识。后一个分支通过利用特征空间中的几何操作来定位互补的多模态信息,然后融合最终的多模态情感分析表示。蔡国强等(2019b)提出了一种多模态分解模型,该模型通过生成特征学习特定于模态的信息。ICCN Sun等(2020)提出了