《Similar modality completion-based multimodal sentiment analysis under uncertain missing modalities》

文章汉化系列目录



摘要

 最近,多模态情感分析(Multimodal Sentiment Analysis, MSA)中不确定的模态缺失为情感分析带来了新的挑战。然而,现有研究无法准确完成缺失模态的补全,也未能充分挖掘文本模态在 MSA 中的优势。针对上述问题,本研究提出了一种基于相似模态补全的多模态情感分析模型(SMCMSA),用于处理不确定模态缺失的问题。

 首先,我们通过从整个多模态数据集中筛选出具有完整模态的样本,构建了完整模态样本数据库(Full Modalities Samples Database, FMSD),并利用三个预训练的单模态情感分析模型(PTUSA)预测并标注这些样本中每种模态的情感标签。接着,为了补全不确定的缺失模态,我们基于从 FMSD 中选择的相似模态,提出了一套缺失模态补全策略。

 对于补全后的多模态数据,我们首先使用 Transformer 的编码器对文本、视频和音频模态进行编码;然后,在预训练模型的指导下,将文本表示融合到视频和音频的表示中,从而提升视频和音频的质量。最后,我们分别基于文本、视频和音频的表示应用 softmax 函数进行情感分类,并通过决策级融合方法结合上述三种情感分析结果,得出最终决策。

 基于 CMU-MOSI 和 IEMOCAP 两个基准数据集,我们进行了广泛的实验验证。实验结果表明,所提出的 SMCMSA 模型的性能优于当前最先进的基线模型。我们的模型代码可在 https://github.com/Astro2Sun/SMCMSA 获取。

引言

 近年来,随着社交网络平台(如 YouTube、Twitch 和 TikTok)的普及以及社交媒体(如 Meta、X 和微博)的快速发展,越来越多的人倾向于通过发布视频、图像等方式表达个人情感和观点,从而产生了大量的视频、音频和文本信息。为了有效识别和理解这些信息中的情感,多模态情感分析(Multimodal Sentiment Analysis,MSA)已成为情感分析领域的重要研究方向。

 MSA 的目标是通过利用包括文本、音频和视频在内的多模态信息,深入理解和检测用户在独白视频中的情感 [1]。与此同时,自动化和准确的情感分析在多个领域中发挥着关键作用,例如人机交互系统 [2]、决策支持系统 [3]、智能服务系统 [4]、评价系统 [5] 和情绪健康管理 [6]。

 与单模态数据相比,多模态数据在情感分析中包含了互补信息。因此,通过从多模态特征中进行互补学习,情感分析的准确性得到了显著提升 [7,8]。近年来,一些基于新型深度学习模型的有效多模态情感分析(MSA)模型被提出,例如循环神经网络(RNN)[9]、Transformer [10] 和图卷积神经网络(GCN)[11,12]。现有研究已取得良好结果,并推动了 MSA 技术在教育、医疗和老年护理等领域的成功应用。

 然而,大多数现有研究认为三种模态(文本、视频和音频)始终可用 [13]。事实上,在实际应用中,由于某些不可控因素,不确定的模态缺失经常发生 [14]。例如,当摄像设备被遮挡时,用户图像无法被捕获;当环境中出现不可消除的突发噪声时,用户语音可能无法获取,等等。因此,在许多实际场景中,不确定模态缺失现象(如图1 所示)经常发生,这会导致大多数现有 MSA 模型的失败。因此,如何应对 MSA 中的不确定模态缺失已成为一个亟需解决的关键问题。

在这里插入图片描述

 近期,一些研究开始着手解决不确定模态缺失下的 MSA 这一具有挑战性的问题,并提出了许多优秀的方法,这些方法可以分为两类:生成方法联合学习方法

  1. 生成方法
    这一类方法通过生成与现有模态分布相匹配的新数据来处理不确定的模态缺失。例如,研究 [15] 开发了一种级联残差自动编码器(CRA)模型,通过堆叠残差自动编码器并利用不同模态之间的相关性来补偿缺失模态。研究 [16] 则通过低层特征重构从不完整数据中进行语义学习,并应用孪生表示学习对齐完整数据和不完整数据的高层表示。

  2. 联合学习方法
    这一类方法旨在从现有模态中学习缺失模态的潜在表示。例如,研究 [17] 提出了一个框架,用于在 MSA 任务及其他多模态环境中处理信号缺失,包括跨模态交互模块、特征优化模块以及知识整合自蒸馏模块,以实现精确的缺失语义重构。研究 [18] 开发了一种考虑不确定模态缺失的 MSA 模型,该模型应用标签辅助的 Transformer 编码器网络,通过标签指导联合分布学习,并采用预训练模型来处理不确定模态缺失的情况。

尽管已经开发了几种优秀模型来解决模态缺失下的 MSA 问题,但仍然存在以下不足需要解决:

  • 对于生成方法,虽然此类方法可以通过学习可用模态的分布来生成缺失模态的数据,但与真实数据相比,模型生成的数据质量通常较差,这会降低 MSA 模型的性能。
  • 对于联合学习方法,此类方法通常直接将包含不确定缺失模态的多模态数据输入到 MSA 模型中进行表示学习。然而,不确定的模态缺失会导致通用公共空间投影效果较差,从而影响 MSA 模型的性能。
  • 实际上,文本模态通常包含比其他两种模态(视频和音频)更多的有用情感信息。一些研究 [8,14] 已经证明,基于文本模态的情感分析准确性优于基于其他两种模态的情感分析。然而,现有研究未能利用文本模态的优势来提升视频和音频模态的质量。

 为了解决上述问题,我们开发了一种基于相似模态补全的不确定模态缺失多模态情感分析模型(简称 SMCMSA)。我们提出的模型由三个模块组成:缺失模态补全模块、多模态特征融合模块和情感预测模块。在第一个模块中,我们构建了一个完整模态样本数据库(FMSD),具体步骤如下:首先从多模态数据集中筛选出完整模态的样本;然后使用三个预训练的单模态情感分析模型(PTUSA)对这些样本的每种模态进行情感标签的预测和标注。在 SMCMSA 的第一个模块中,针对不同的模态缺失情况,我们提出了一套基于从 FMSD 中选择的相似模态的模态补全策略,用以完成缺失模态的补全。在第二个模块中,我们首先使用 Transformer 编码器对文本、视频和音频进行编码;然后在预训练模型的指导下,将文本的表示融合到视频和音频的表示中,从而提升视频和音频模态的质量。接下来,在预训练模型的指导下,对编码后的文本、视频和音频模态进行融合。 在情感预测模块中,我们首先基于编码后的文本、融合后的视频和音频分别应用 softmax 函数进行情感分析;然后,通过决策级融合策略结合上述三个情感分析结果,得到最终的情感分类结果。

我们工作的主要贡献如下:

  1. 针对不确定模态缺失问题,我们首次提出了利用相似模态补全缺失模态的思想。相似模态是根据相似度和预测的情感标签选择的。对于不同的模态缺失场景,我们提出了一套模态补全策略。

  2. 受到文本模态在多模态情感分析中优势的启发,我们提出将文本表示融合到视频和音频中,并在预训练模型的指导下提升视频和音频的质量。预训练模型在完整模态数据上进行训练,不仅可以指导模态间的融合,还可以使不完整多模态数据的融合结果更接近完整模态的结果。

  3. 基于两个公开的流行数据集(CMU-MOSI 和 IEMOCAP),我们进行了广泛的实验,验证了我们提出的 SMCMSA 模型的优越性。实验结果表明,我们的模型性能优于十种基线模型。

本文的结构如下:第 2 节回顾现有研究工作;第 3 节介绍我们提出的 SMCMSA 模型;第 4 节展示实验和结果分析;最后,第 5 节总结了我们的工作并讨论了一些未来研究方向。

2. 相关工作

在本节中,我们首先回顾现有的多模态情感分析(Multimodal Sentiment Analysis, MSA)研究。随后,我们回顾解决模态缺失问题的 MSA 相关代表性研究工作。

2.1. 多模态情感分析研究

与单模态数据相比,多模态数据结合了来自多个方面(如视频、音频和文本)的信息,可以提供更全面和稳健的情感分析结果 [14]。近年来,MSA 主题引起了广泛关注 [14,18]。

早期研究:传统机器学习方法在 MSA 研究的早期阶段,一些传统机器学习方法被采用。例如:

  • Rozgić 等 [19] 提出了一个自动生成的树集成模型,该模型由二元支持向量机分类器构建。
  • Cummins 等 [20] 利用多个 Bag-of-Words 模型和额外数据(特别是来自测试域和域外数据集的信息)提升了情感检测系统的性能。
  • Arunkumar 等 [21] 提出了一些基于机器学习的意见挖掘框架,结果表明,结合粒子群优化的支持向量机在视频内容评论的情感评估中表现最佳。

深度学习时代:基于深度学习的 MSA 方法随着深度学习模型的普及,一些基于深度学习的 MSA 方法被提出,并表现出了出色的性能 [2,7]。对于这些方法,多模态特征的整合对 MSA 的性能有重要影响 [22,23]。

常用的多模态融合策略当前,有四种常用的多模态融合策略,用于深入研究不同模态之间的交互关系:

  1. 早期融合(Early Fusion) 将不同模态的特征合并为一个融合特征,然后将融合特征输入到情感预测模型中。例如,研究 [13] 开发了一种门控跨模态注意机制,增强了模态间的交互,并通过并行结构获取了成对的综合情感信息。

  2. 后期融合(Late Fusion) 以并行结构处理和分类每种模态的特征,最终将所有分类结果融合为一个单一的决策向量用于情感预测。Zheng 等 [24] 针对语音、文本和动作模态分别设计了不同的特征提取方案,并最终通过决策融合获得了情感识别结果。

  3. 混合融合(Hybrid Fusion) 结合早期融合和后期融合策略。研究 [25] 提出了一种混合对比学习框架,促进了跨模态交互,保持了类别间关系,并缩小了不同模态之间的差距。

  4. 基于翻译的融合(Translation-based Fusion) 受机器翻译的启发提出的策略。通过将一种模态“翻译”为另一种模态,这种策略可以捕获更有意义的跨模态关系。例如,Liu 等 [14] 提出了通过模态翻译模块将视觉和听觉模态翻译为文本模态。

注意力机制的引入最近,一些研究将注意力机制引入到 MSA 模型中:

  • Wang 等 [26] 采用基于文本的多头注意机制,将文本中的信息融入视频和音频的表示中。
  • Kim 等 [27] 引入了一个单流 Transformer,通过在多模态掩码语言建模和对齐预测任务上的预训练来确定模态之间的依赖关系。
  • Ashima 等 [28] 开发了一种多模态学习模型(DMLANet),通过生成双注意视觉图并建模图像与文本之间的关系,获得了情感丰富的特征用于分类。

然而,大多数优秀的 MSA 模型假设所有模态始终可用。这种假设在模态缺失的场景下会导致模型失效。

2.2 带缺失模态的多模态情感分析(MSA)

近年来,多模态机器学习和带模态缺失的多模态情感分析(MSA)成为一个具有挑战性的问题。一些研究已针对该问题展开,并取得了令人瞩目的成果。现有处理缺失模态的方法主要分为两类:生成方法 [29–34] 和联合学习方法 [8,10,35–41]。以下将对相关工作进行回顾。

生成方法
这一类方法通过分析现有模态数据生成与其分布相似的新数据。以下是一些代表性研究:

  • Work [29]:提出了一种变分自编码器(VAE),能够在有向概率模型中实现高效学习。
  • Shang et al. [30]:通过生成对抗网络(GAN)学习领域映射,并使用多模态去噪自编码器进行重构。
  • Work [31]:采用编码器–解码器网络生成缺失模态的数据,同时利用辅助对抗损失来提高生成数据的质量。
  • Zhao et al. [39]:通过前向和后向想象模块生成联合多模态表示,以预测在不同条件下的缺失模态。
  • Zhou et al. [32]:提出了一种基于端到端特征增强生成器和多源相关深度神经网络的数据生成方法,以增强缺失模态的相关特征。
  • Zhang et al. [33]:将多视图潜在表示的学习转化为一种简化过程,统一了不同视图间的一致性和互补性。

联合学习方法
这一类方法旨在通过挖掘不同模态之间的交互关系来学习联合表示 [35]。以下是一些代表性研究:

  • Work [36]:提出了一种新颖的联合训练模型,该模型在训练中引入辅助模态,以映射音频和视觉特征进行情感预测。
  • Zhang et al. [10]:使用跨模态 Transformer 建模模态交互,并通过自监督的单模态情感标签指导情感分析。
  • Work [8]:采用缺失索引嵌入引导缺失模态特征的重构。
  • Yuan et al. [38]:提出了一种基于 Transformer 的特征重构网络,用于捕获鲁棒的模态内和模态间表示,并生成缺失模态特征。
  • Wei et al. [40]:设计了一种可分离张量融合网络,以捕获模态之间的交互,并通过 Tucker 分解操作提高计算效率。
  • Chi et al. [41]:提出了一种基于元采样的有效附加训练组件。

此外,基于我们之前的工作 [14],为更清晰地展示当前关于不确定模态缺失的研究,我们对相关研究进行了比较和总结,如表 1 所示。
在这里插入图片描述

尽管上述现有研究已经取得了优异成果,但它们仍未能克服低质量模态对 MSA 性能的不利影响。此外,现有方法主要通过学习现有模态生成缺失模态的数据,但生成的数据通常与真实模态存在较大偏差,这将影响 MSA 模型的性能。

3. 方法论

接下来的章节中,我们首先介绍本研究中探讨的问题;然后,描述我们提出模型的结构;最后,详细说明每个模块的主要功能。

3.1 问题

假设存在一组多模态数据,包括三种模态: P = [ X v , X a , X t ] P = [X_v, X_a, X_t] P=[Xv,Xa,Xt],其中 X v X_v Xv X a X_a Xa X t X_t Xt分别表示视频、音频和文本模态。为了保持普遍性,我们用 X M m X_M^m XMm表示缺失的模态,其中 M ∈ { v , a , t } M \in \{v, a, t\} M{ v,a,t}。关于不确定的模态缺失,可能出现的一些场景总结在表2中。
在这里插入图片描述

本研究探讨的问题是:如何在具有不确定模态缺失的数据集 P P P的基础上,进行鲁棒的情感分析。为了便于表述,本研究使用 { X v m , X a , X t } \{X_v^m, X_a, X_t\} { Xvm,Xa,Xt}表示具有不确定模态缺失的多模态数据。

3.2 我们提出模型的概述

为了解决不确定模态缺失情况下的多模态情感分析(MSA)问题,我们开发了一种基于相似模态补全的MSA模型(称为SMCMSA),其结构如图2所示。
在这里插入图片描述

SMCMSA由三个模块组成,分别是模态缺失补全模块、多模态特征融合模块和情感预测模块。以下是每个模块的操作流程:

  1. 模态缺失补全
    为了通过相似模态完成缺失模态,我们首先从日常生活中收集的多模态数据集中筛选出完整模态样本,构建完整模态样本数据库(FMSD)。接着,利用三个预训练的单模态情感分析模型,预测并标注每个模态的情感标签。

  2. 模态缺失补全模块
    对于具有不确定模态缺失的多模态数据 { X v m , X a , X t } \{X_v^m, X_a, X_t\} { Xvm,Xa,Xt},根据我们提出的模态补全策略(将在第3.4节详细介绍)进行补全。

  3. 多模态特征融合模块
    首先,通过Transformer编码器对视频、音频和文本进行编码。接着,将编码后的文本特征融合到视频和音频特征中,以增强视频和音频模态的质量。然后,将编码后的文本、融合后的视频和音频特征进行拼接,并使用一个预训练模型引导多模态特征的融合。

  4. 情感预测模块
    使用Softmax函数分别对编码后的文本、融合后的视频和音频进行情感分类。最后,基于上述情感分类结果,采用决策级融合策略获取最终的情感分类结果。

在接下来的章节中,我们首先介绍Transformer的基本概念和公式,然后详细介绍我们提出的SMCMSA模型的三个主要模块。

3.3 Transformer

自从Transformer被提出以来[42],它在解决不同问题上展现了巨大的优势,并被应用于多个领域。以下是Transformer的主要公式和机制:

假设输入为 X X X,定义查询(Query)为 Q = X W Q Q = XW_Q Q=XWQ,键(Key)为 K = X W K K = XW_K K=XWK,值(Value)为 V = X W V V = XW_V V=XWV,其中 W Q ∈ R d × d W_Q \in \mathbb{R}^{d \times d} WQRd×d W K ∈ R d × d W_K \in \mathbb{R}^{d \times d} WKRd×d W V ∈ R d × d W_V \in \mathbb{R}^{d \times d} WVRd×d是权重矩阵。

在Transformer中,多头点积注意力(multi-head dot-product attention)是一个重要的操作,其计算过程如公式(1)所示:

Attention ( Q , K , V ) = Softmax ( Q K T d k ) V = Softmax ( X W Q W K T X T d k ) X W V . \text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V = \text{Softmax}\left(\frac{XW_QW_K^TX^T}{\sqrt{d_k}}\right)XW_V. Attention(Q,K,V)=Softmax(dk QKT)V=Softmax(dk XWQWKTXT)XWV.

对于Transformer,其多头注意力机制(multi-head attention mechanism)包含多个注意力头。因此,Transformer可以从多个视角学习有用信息。在本工作中,我们采用多头注意力机制,从每个模态的不同语义空间中学习重要信息。

多头注意力机制的计算过程如公式(2)所示:

E M = MultiHead ( Q , K , V ) = Concat ( head 1 , head 2 , … , head h ) W O . E_M = \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, \dots, \text{head}_h)W_O. EM=MultiHead(Q,K,V)=Concat(head1,head2,,headh)WO.

其中, W O ∈ R d × d W_O \in \mathbb{R}^{d \times d} WORd×d表示权重矩阵, h h h表示头的数量。第 i i i个注意力头 head i \text{head}_i headi的计算如公式(3)所示:

head i = Attention ( X W Q i , X W K i , X W V i ) . \text{head}_i = \text{Attention}(XW^i_Q, XW^i_K, XW^i_V). headi=Attention(XWQi,XWKi,XWVi).

其中, W Q i ∈ R d h × d h W^i_Q \in \mathbb{R}^{\frac{d}{h} \times \frac{d}{h}} WQiRhd×hd W K i ∈ R d h × d h W^i_K \in \mathbb{R}^{\frac{d}{h} \times \frac{d}{h}} WKiRhd×hd W V i ∈ R d h × d h W^i_V \in \mathbb{R}^{\frac{d}{h} \times \frac{d}{h}} WViRhd×hd分别表示第 i i i个Query、Key和Value的权重矩阵。

3.4 缺失模态补全模块

 对于存在不确定缺失模态的多模态数据,现有研究通常通过学习可用模态来填充缺失模态的模拟数据。然而,这种模拟结果的质量通常低于真实数据的质量。针对这一问题,我们提出了一种新思路,即利用从全模态样本数据库(FMSD) 中选取的相似数据来补全不确定的缺失模态。我们认为,相似数据的质量优于通过MSA模型生成的数据,因此使用真实模态来补全缺失模态将能够在MSA中获得更好的性能。

 此外,对于不确定缺失模态的问题,通常会存在多种模态缺失的情况。针对这一问题,我们将不确定模态缺失分为两类,并为不同的模态缺失情况提出了一套模态补全策略。接下来,我们首先介绍如何构建全模态样本数据库,然后详细说明缺失模态的补全策略。

(1) 全模态样本数据库的构建对于我们提出的方法,一个多样化且全面的全模态数据库是确保模型性能的关键基础。因此,为了更好地完成缺失模态的补全,构建一个完善的全模态数据库是必要的。实际上,如图1表2所示,在用户的日常生活中,虽然存在不确定的模态缺失情况,但仍然有三种模态完整的案例。因此,我们首先从大量用户中收集情感数据,然后从数据库中筛选出全模态数据。此外,对于多模态情感数据,虽然某一模态的数据可能是相似的,但其表达的情感可能会有所不同。因此,为了找到语义一致的数据来补全缺失模态,我们提出使用预测的情感标签作为辅助标准来选择相似数据。具体地,在从用户的多模态情感数据中选出全模态数据后,我们利用预训练的单模态情感分析模型(PTUSA) 对每个模态数据进行情感标签预测,并将标签标注在每个模态数据上。通过这一过程,全模态数据库得以构建。在本研究中,预训练的单模态情感分析模型(PTUSA)是基于Transformer编码器提出的,其模型结构如图3所示。我们用 X M X_M XM 表示单模态数据。首先,数据 X M X_M XM 被输入到全连接层进行维度变换,并转换为 X M ′ ∈ R l M × d X'_M \in \mathbb{R}^{l_M \times d} XMRlM×d(在本文中,我们用 l ( ⋅ ) l(\cdot) l() d ( ⋅ ) d(\cdot) d() 分别表示序列长度和特征维度)。然后,使用Transformer编码器提取单模态数据的上下文特征,单模态数据的表示学习过程可以表示为以下公式:

X M ′ = M L P ( X M ) (4) X'_M = MLP(X_M) \tag{4} XM=MLP(XM)(4)

E M = M u l t i H e a d ( X M ′ , X M ′ , X M ′ ) (5) E_M = MultiHead(X'_M, X'_M,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值