系列论文研读目录
例如:
摘要
多模态多标签情感识别(Multi-modal multi-label emotion recognition,MMER)是从多种模态中识别相关情感的方法。MMER面临的挑战是如何从异构数据中有效地捕获多个标签的区别性特征。近年来的研究主要致力于探索各种融合策略,以将多模态信息整合为所有标签的统一表示。然而,这样的学习方案不仅忽略了每个模态的特异性,而且不能捕获不同标签的个体区别特征。此外,标签和模态的依赖性不能被有效地建模。针对这些问题,这篇论文为MMER任务提出了一种动特征重构和聚合(ContrAstive feature Reconstruction and AggregaTion ,简称CARAT)。具体地说,我们设计了一种基于重构的融合机制,通过对比学习模态分离和标签特定的特征,更好地建模细粒度的模态-标签依赖性。为了进一步挖掘模态互补性,我们引入了一种基于shuffle的聚合策略来丰富标签间的共现协作。在两个基准数据集CMU-MOSEI和M3 ED上的大量实验表明,CARAT方法优于最先进的方法。代码可在https://github.com/chengzju/CARAT上获得。
引言
多模态多标签情感识别(MMER)的目的是识别多种情感(例如,快乐和悲伤)从多个异质模态(例如,文本、视频和音频)。在过去的几十年里,MMER推动了许多社区的研究,如在线聊天(Galik和Rank 2012)、新闻分析(Zhu、Li和Zhou 2019)和对话系统(Ghosal等人2019)。
与单模态任务不同,多模态学习协同处理来自不同来源的异构信息,这就带来了如何从多模态中获取区别性表征的挑战。为此,最近的工作提出了各种先进的多模态融合策略,以弥合模态差距并学习有效的表征(Ramachandram和Taylor 2017)。根据融合方式,方法大致可分为三类:基于聚合的、基于比对的和两者的混合(Baltruˇsaitis、Ahuja和Morency 2019)。基于聚合的融合采用平均(Hazirbas等人,2017)、级联(Ngiam等人,2011)或注意(Zadeh等人,2018 a)来整合多模态特征。基于对齐的融合(Pham et al. 2018,2019)采用跨模态自适应来对齐不同模态的潜在信息。然而,将多个情态统一为同一表征,必然会忽略每个情态的特殊性,从而失去其丰富的区分特征。尽管最近的研究(Hazarika,Zimmermann,and Poria 2020; Zhang et al. 2022)试图学习特定模态的表征,但他们仍然利用注意力将这些表征融合为一个。因此,如何在保持模态特异性的同时有效地表示多模态数据并整合互补信息是MMER的一个关键挑战。
作为一项多标签任务(Zhang and Zhou 2013),MMER还需要处理标签间复杂的依赖关系。如今,大量研究尝试了各种方法来探索标签相关性,例如标签相似性(Xiao et al. 2019)和共现标签图(Ma et al. 2021)。然而,这些静态相关性并不能反映标签间的协作关系。另一方面,MMER的另一个棘手难题是如何学习标签和模态之间的依赖关系。通常,不同的模态具有不一致的情感表达,相反,不同的情感集中在不同的模态上,这意味着推断每个潜在标签在很大程度上取决于不同模态的不同贡献。如图1所示,我们可以更容易地从视觉模态推断悲伤,而厌恶可以从文本模态和视觉模态预测。因此,MMER的另一个挑战是如何有效地建模标签到标签和模态到标签的依赖性。
为了解决这些问题,我们为MMER任务提出了一个基于对比特征重构和聚合的(CARAT)模型,它在一个连贯和协同的框架中协调表示学习和依赖建模。具体而言,我们的框架CARAT包含三个关键组件。首先,我们采用标签式注意机制分别提取每个模态中的标签特有表征,目的是在保持模态特有性的同时,捕获每个标签的相关区别特征。其次,为了协调多模态信息的互补性和特异性,我们提出了一种基于重构的融合策略,试图通过利用来自多模态的信息来生成任意模态的特征。我们利用对比学习(Khosla et al. 2020)(在既往MMER文献中未探索)促进模态分离和标签特异性特征的学习。第三,在重构嵌入的基础上,提出了一种新的基于样本和模态的标签混洗策略,以丰富标签间的共生依赖关系。在混洗之后,聚合嵌入以微调鲁棒鉴别器。此外,在模态-标签依赖建模方面,我们采用了一种最大类池网络来发现每个样本中不同情绪的最相关模态,并促使这些对应的表征更具区分性。本文的主要贡献可概括如下:·提出了一种新的基于对比度特征的特征重构与融合框架。据我们所知,这项工作开拓了利用对比学习促进基于特征重构的多模态融合机制。作为该方法的一个组成部分,我们还引入了一种基于洗牌的特征聚合策略,该策略使用重构的嵌入来更好地利用多模态互补性。·为了保持模态的特异性,CARAT通过标签式注意从不同的模态中独立地提取标签特异性表征。然后,通过一个最大类池网络来选择与每个情绪最相关的模态表示,以探索模态和标签之间的潜在依赖关系。·我们在两个基准数据集CMU-MOSEI和M3ED上进行了实验。实验结果表明,我们提出的方法优于以往的方法,达到了最先进的性能。
图1:MMER(左)和两个相关情绪与视频序列(右)之间的相关性的示例。
相关作品
多模态学习旨在构建能够处理和关联来自多个模态的信息的模型(Baltruˇsaitis、Ahuja 和 Morency,2019年)。一个基本的挑战是如何有效地融合多模态信息。根据融合方式,方法大致可以分为三类:基于聚合的方法、基于对齐的方法和混合方法。基于聚合的方法使用拼接(Ngiam等人,2011年)、张量融合(Zadeh等人,2017年;Liu等人,2018年)和注意力机制(Zadeh等人,2018a年)来结合多种模态,但容易受到模态差距的影响。为了弥合这种差距,基于对齐的融合(Pham等人,2018年,2019年)通过构建联合嵌入空间来实现潜在的跨模态适应。然而,基于对齐的融合忽视了每种模态的特性,导致判别信息的遗漏。
多标签情感识别是一个基础的多标签(ML)任务,且ML方法可以迅速应用。BR(Boutell等人,2004年)将ML任务分解为多个二分类任务,但忽略了标签之间的关联性。为了利用标签之间的关联性,提出了LP(Tsoumakas和Katakis,2006年)、CC(Read等人,2011年)和Seq2Seq(Yang等人,2018年)等方法。为了进一步探索标签之间的关系,最近的研究采用了强化学习方法(Yang等人,2019年)、多任务模式(Tsai和Lee,2020年)和图卷积网络(GCN)模型(Chen等人,2019b年)。另一个重要任务是学习有效的标签表示。为了弥补单一表示无法捕捉所有标签判别性信息的问题,最近的研究(Chen等人,2019a,b)利用了标签特定的表示方法,以捕捉每个标签最相关的特征,这在许多研究中得到了成功应用(Huang等人,2016年;Xiao等人,2019年)。
对比学习(CL)是一种有效的自我监督学习技术(Li等人,2021; Oord、Li和Vinyals,2018; Hjelm等人,2019)。CL的目标是学习一个有区别的潜在空间,其中相似的样本被拉在一起,不相似的样本被推开。受CL在无监督学习中的成功应用(Oord,Li,and Vinyals 2018; He et al. 2020)的激励,设计了监督对比学习(SCL)(Khosla et al. 2020),以促进一系列监督任务。最近,CL已被应用于多模态任务,以加强不同模态特征之间的相互作用(Zheng等人,2022; Franceschini等人,2022; Zolfaghari等人,2021)。然而,在多标签情境下,对多模态任务的对比学习还没有相关的研究。
方法论
在本节中,我们将描述我们的CARAT框架,它包括三个顺序组件(如图2所示)。
图2 CARAT的整体结构有三个连续的步骤(上面部分)。两级特征重构网络、对比表示学习网络和类最大池网络的详细实现(下面部分)。
问题定义
我们为MMER定义符号。设 χ t ∈ R n t × d l \chi^{t}\ \in\ \mathbb{R}^{n_{t}\times d_{l}} χt ∈ Rnt×dl, χ v ∈ R n v × d v \chi^{v}\ \in\ \mathbb{R}^{n_{v}\times d_{v}} χv ∈ Rnv×dv和 χ a ∈ R n a × d a \chi^{a}\ \in\ \mathbb{R}^{n_{a}\times d_{a}} χa ∈ Rna×da分别为文本 ( t ) (t) (t)、视觉 ( v ) (v) (v)和声学 ( a ) (a) (a)模态的异构特征空间,其中 n m n_m nm和 d m d_m dm分别表示序列长度和模态维数( m ∈ { t , v , a } m ∈\{t,v,a\} m∈{ t,v,a}用于表示任何模态). Y Y Y是带有 C C C标签的标签空间。给定训练数据集 D = { ( X i { t , v , a } , y i ) } i = 1 N D=\{({\bf X}_{i}^{\{t,v,a\}},y_{i})\}_{i=1}^{N} D={(Xi{ t,v,a},yi)}i=1N,MMER旨在学习函数 F : X t × X v × X a ↦ Y \mathcal{F}:{\mathcal{X}}^{t}\times\mathcal{X}^{v}\times\mathcal{X}^{a}\mapsto\mathcal{Y} F:Xt×Xv×Xa↦Y以预测每个视频的相关情绪。具体地, X i m ∈ X m X_i^m ∈ X^m Xim∈Xm是异步协调话语序列,并且 y i = { 0 , 1 } C y_i =\{0,1\}^C yi={ 0,1}C是多热标签向量,其中符号 y i , j = 1 y_{i,j} =1 yi,j=1指示样本 i i i属于类别 j j j,否则 y i , j = 0 y_{i,j} =0 yi,j=0。
单模态标签特征提取
作为第一步,该组件旨在为每个模态中的每个标签提取相关的判别特征。
基于transformer的提取器。对于每个模态 m m m,我们使用独立的Transformer编码器(Vaswani等人,2017)将原始特征序列 X m ∈ R n m × d m X^{m}\in\mathbb{R}^{n_{m}\times d_{m}} Xm∈Rnm×dm映射到高级嵌入序列 H m ∈ R n m × d { H}^{m}\in\mathbb{R}^{n_{m}\times d} Hm∈Rnm×d。每个编码器由 l m l_m lm个相同的层组成,其中每个层由两个子层组成:多头自注意子层和位置前馈子层。在两个子层中的每一个周围采用残差连接(He等人,2016),然后进行层归一化。
多标签注意。考虑到每种情感通常由话语中最相关的部分来表达,我们为每种情感生成标签特定的表示,以捕获最关键的信息。在获得嵌入序列 H m H^m Hm之后,我们通过标签式注意力网络来计算在每个模态 m m m下每个标签 j j j的这些嵌入的组合。形式上,我们将每个嵌入的隐状态表示为 h i m ∈ R d ( i ∈ [ n m ] ) h_{i}^{m}\,\in\,\mathbb{R}^{d}(i\in[n_m]) him∈Rd(i∈[nm]).注意表示 u j m u^m_j ujm