abstract
当前多模态情感分析面临的主要挑战包括:1、模型如何在单一模态中提取情感信息,并实现多模态信息的互补传输;2、在单一模态中体现的情绪与多模态标签不一致的情况下,如何输出相对稳定的预测;3、当单模态信息不完整或特征提取性能不佳时,该模型如何确保高精度。
传统方法没有考虑单峰上下文信息和多模态信息的相互作用。他们还忽略了不同模态的独立性和相关性,当多模态情绪表征不对称时,这些模态表现不佳。
为了解决这些问题,本文首先提出了单峰特征提取网络(UFEN),以提取具有更强表示能力的单峰特征;然后引入多任务融合网络(MTFN)来提高多模态之间的相关性和融合效果。模型中使用了多层特征提取、注意机制和Transformer来挖掘特征之间的潜在关系。在MOSI、MOSEI和SIMS数据集上的实验结果表明,与最先进的基线相比,该方法在多模态情感分析任务上取得了更好的性能。
intro
(多模态互补性与异质性)
由于每种模态都有其独特的特点,融合多种模态可以充分利用信息的互补性和传递性。然而,多模态信息也具有异质性。不同模态数据之间的语义并不完全一致,如图1所示。简单的模态添加无法达到预期的效果。这对多模态情感分析的特征提取和融合网络提出了更高的要求。
(模态内特征提取与模态间特征提取)
MSA主要包括两个过程,模态内特征提取和模态间信息交互。模态内特征提取是为了获得更高维的情感表示,它侧重于单个模态中的空间或时间信息。模态内的特征是改善多种模态之间信息互补特征的基础。模态间信息交互侧重于信息的融合。它充分利用信息的传输和互补特性,为情感分析任务提供更准确、更稳健的结果。这些融合方法根据融合方法分为各种类型,包括:数据融合、特征融合、决策融合等。结合上述两个过程,该模型可以学习相应模态的特征以及不同模态之间的相互作用。常用的模态内特征提取方法包括LSTM和GRU等递归神经网络。这些方法可以有效地捕捉序列特征。然而,它们无法平衡模态内和模态间相互作用之间的关系,这导致RNN本身无法捕获模态间相互影响所期望的多尺度信息。
(已有代表性工作以及其局限性)
Zedeh等人提出的张量融合网络(TFN)使用LSTM提取模态内特征信息。引入三重笛卡尔积来构建张量融合层,以模拟不同模态之间的动态融合,尽管计算复杂度很高。
Wang等人结合GRU和Transformer来挖掘模态内相互作用,以及将信息整合到编码特征中,以提高模态之间的相关性。对于多式联运信息交互过程,受注意力机制的启发,许多模型使用基于注意力的策略来融合多式联运特征。
Tsai等人5提出了多模态变换器(MulT),它使用多头注意力机制来关注不同模态和时间序列的特征。该模型还可以对未对齐的数据产生稳定的预测。然而,它使用许多融合特征进行情感分析,但忽略了模态内特征,这可能会导致某些模态信息的利用不足。
Sun等人6使用模态之间的情感表征作为上下文,并与模态内特征相互作用。该方法更好地平衡了模态内和模态间信息交互之间的关系。
(作者的研究动机以及贡献)
尽管许多研究提出了多模态特征提取和融合的新方法,但缺乏在模态不平衡和隐式表达条件下进行精确情感分析的研究,这在现实世界场景中更为普遍。基于上述分析,本文的主要研究动机及其旨在解决的问题如下:
(1)许多模态内特征无法完全提取,直接融合很容易忽略这些独特的信息。
(2) 模态间特征的互补性没有得到充分利用,预测结果更有可能偏向于一种模态所表示的语义信息。
(3) 在复杂的语义环境中,每种情态的情感倾向是不一致的,模型很难平衡情态内和情态间的关系。
在本文中,我们提出了一种单峰特征提取网络(UFEN)来捕获单模态中的上下文信息。它结合了多层信息融合和基于卷积过程的自关注机制,以获得更重要和独特的模态内特征。它还减少了冗余信息对后续模态间特征融合的影响。在模态间信息交互过程中,多头注意力模块可以帮助模型学习更多的互补信息和特征之间的高维表示。
基于此,我们提出了一种多任务融合网络(MTFN),用于提取模态之间的潜在关系以及融合特征的整体情感表示。该网络引入了跨模态注意力模块、编码器和解码器层。为了缓解多种模态中情绪表示不一致的问题,降低预测的准确性,我们将多模态情绪分析设置为多任务学习。多个任务的特征表示共同影响模型,每个任务的损失用于平衡模态内和模态间信息交互之间的关系。
本文的主要研究目标和贡献可以概括如下:
•优化和提高单峰特征提取的质量和表示能力:我们提出了一种UFEN来提取单峰语义表示。该网络基于多层信息融合,结合了卷积层和自我关注模块。网络通过时间序列特征和不同尺度特征关注更具代表性的信息。
•在情感不对称或隐含表达的条件下保持准确的信息交互和结果预测:我们提出了一种MTFN,它将MSA视为一种多任务学习。该模型可以提取模态之间的互补特征,同时减轻模态间情感表征不对称的影响
•该模型可以应用于各种情绪分析任务,并表现出良好的泛化能力:为了验证所提出方法的有效性,我们在三个广泛使用的MSA基准数据集上进行了全面的实验,包括CMU-OSI、CMU-MOSEI和CH-SIMS。实验结果表明,我们的方法优于以前的方法。本文的其余部分结构如下:“相关工作”部分介绍了近年来的相关工作。在“方法”部分,我们定义了问题公式,并介绍了本文提出的方法的细节。“实验”部分描述了实验数据集、评估指标、实验配置和基线模型。“结果”部分描述了实验结果分析、消融实验和可视化分析。最后,我们在“结论”部分得出了我们的结论。
related work
分主题介绍,每个主题都遵循了总体概述->主要问题或已有方法思路->具体代表性论文->局限点以及启示的写作套路。
多模态情感分析
(多模态情感分析的重要性以及起源)
早期的情感分析方法是单模态的,主要侧重于文本模态。单纯的文本数据无法满足对更复杂情感分析的准确需求,尤其在 HCI(人机交互)领域。因此,多模态情感分析便应运而生。除了文本模态外,多模态情感分析还包含语音与视觉信息,这些信息可以用来更准确地预测隐式情感极性。
(点名当前的研究热点,表示学习与多模态融合,与论文主题相近)
关于多模态情感分析的研究主要聚焦在多模态表示学习以及多模态融合。
(举例经典工作,扼要陈述方法)
Hazarika 等人的工作设计了两个不同的编码器,分别将特征投影到‘模态不变子空间’和‘模态特定子空间’。Fang 等人提出了一种多模态相似度计算网络,用来学习文本与图像在统一向量空间中的嵌入表示。Zhang 等人使用对抗网络来减少多模态情感分析中表达风格转移带来的影响,并从不同模态获取联合表示。这种方法有助于实现不同域之间的情感信息迁移。Sun 等人提出了‘模态不变时序学习技术’以及‘模态间注意力’机制,以获取模态内与模态间特征。
(进一步细分多模态融合的策略,分为早期融合和后期融合)
对于多模态融合,可以主要分为早期融合与后期融合。早期融合一般指在输入阶段就将不同模态的特征拼接起来,而后期融合则在单独构建各自模态的独立模型后,再将输出结果整合起来。
(同样举例经典工作,同类方法放在一起)
Zadeh 等人通过外部生成的向量将多模态特征进行融合。Yang 等人引入了注意力机制,以捕捉不同模态特征之间的表示关系,从而实现特征融合。Zeng 等人使用图神经网络以同时获取独立特征与互补特征信息,平衡模态之间的独立性与互补性。Li 等人则采用量子理论来建模模态内以及模态间的相互作用,并在不同阶段使用叠加和纠缠操作来表达情感。Majumder 等人采取了分层方法来进行融合:首先融合单模态,然后再对所有模态做融合。
(扩展到其他生理信号融合)
此外,基于生理信号(如脑电图、心电图、皮肤电活动)的情感分析研究也很流行。Kumar 等人结合 EEG(脑电)和语音信号来进行情感分析,并在消费产品的多模态评分上取得了较好的结果。Katada 等人将心电信号与语言特征相结合,通过多模态表示来提高多模态情感分析的效率