代码地址:https://github.com/AIM3RUC/MMIN
abstract:
在以往的研究中,多模态融合已被证明可以提高情绪识别的性能。然而,在实际应用中,我们经常会遇到模态丢失的问题,而哪些模态会丢失是不确定的。这使得固定多模态融合在这种情况下失效。在这项工作中,我们提出了一个统一的模型,缺失情态想象网络(MMIN),以处理不确定的缺失情态问题。MMIN学习鲁棒联合多模态表示,在给定可用模态的情况下,可以预测任意缺失模态在不同缺失模态条件下的表示。
在两个基准数据集上的综合实验表明,统一的MMIN模型在不确定缺失模态测试条件和全模态理想测试条件下都显著提高了情绪识别性能。代码可在https://github.com/AIM3RUC/MMIN上获得。
intro:
自动多模态情感识别对于自然人机交互非常重要(Fragopanagos and Taylor, 2002)。它旨在理解和解释通过多种方式表达的人类情感,如语音内容、语音语调和面部表情。先前的研究表明,这些不同的模态对情绪表达是互补的,并提出了许多有效的多模态融合方法来提高情绪识别性能(Baltrusaitis等人,2018;Tsai et al ., 2019;Zhao et al ., 2018)。然而,在实际的应用程序中,许多常见的原因可能导致缺少模态问题。例如,相机关闭或因隐私问题被屏蔽;自动语音识别错误导致语音内容不可用;由于用户的沉默,语音和文字缺失;或者由于光照或遮挡问题而无法检测到人脸,如图1所示。在全模态样本上训练的现有多模态融合模型通常在缺少部分模态时失败(Aguilar等人,2019;Pham等人,2019;Cai et al, 2018;Parthasarathy and Sundaram, 2020)。
问题情态缺失是近年来研究较多的问题,现有的解决方法主要是基于学习联合多模态表示,实现所有情态信息的编码。Han等人(Han et al ., 2019)提出了一种联合训练方法,该方法隐式融合了来自辅助模态的多模态信息,从而提高了单模态情感识别性能。最近在(Pham et al ., 2019;Wang et al ., 2020)通过将源模态转换为多个目标模态来学习联合多模态表示,从而提高了作为输入的源模态的性能
然而,这些方法只能处理源模态输入到训练模型的场景。需要为不同的缺失模态情况构建不同的模型1。此外,基于顺序翻译的模型需要翻译和生成视频、音频和文本,这些内容很难训练,特别是在训练样本有限的情况下(Li et al ., 2018;Pham et al, 2019)。
在这项工作中,我们提出了一个新的统一模型,缺失情态想象网络(MMIN),以解决上述问题。具体而言,本文提出的MMIN通过层叠残差自编码器(Cascade Residual Autoencoder, CRA) (Tran et al ., 2017)和基于句子级特定情态表征的循环一致性学习(Cycle Consistency Learning, Zhu et al ., 2017)的跨情态想象学习鲁棒联合多情态表征,因为句子级表征更合理地建模跨情态情感相关性。想象模块旨在从其他可用的情态中预测缺失情态的句子级情感表征。据我们所知,这是第一个研究具有不确定缺失情态的多模态情感识别的统一模型的工作。
在IEMOCAP和MSPIMPROV两个基准数据集上,在不确定失模态和全模态条件下进行了大量实验。该模型作为一种统一的多模态情感识别模型,能够学习到鲁棒的联合多模态表示,在不确定缺模态和全模态条件下均优于标准多模态融合模型。此外,为了评估我们的MMIN模型的想象能力,我们可视化了缺失模态的想象表征及其基真表征的分布,发现它们非常相似,这表明MMIN可以基于可用模态的表征来想象缺失模态的表征
综上所述,本工作的主要贡献有:1)我们提出了一个统一的模型,缺失情态想象网络(MMIN),以提高不确定缺失情态测试下情感识别系统的鲁棒性con1如果有音频(a)、视觉(v)和文本(t)三种情态,那么系统需要6个在6种缺失情态条件下训练的模型fag、fvg、ftg、fa、vg、fa、tg和fv、tg,再加上一个在全情态数据下训练的模型。
条件。2)基于配对多模态数据设计跨模态想象,采用级联残差自编码器(CRA)和循环一致性学习学习鲁棒联合多模态表示。3)在两个基准数据集上的大量实验表明,该模型在不确定缺失模态和全模态条件下都提高了情感识别性能。
related work:
多模态情感识别以前的许多工作都集中在融合多模态信息以提高情感识别性能上。提出了基于时间注意的方法,利用注意机制根据框架级或词级时间序列选择性地融合不同的模态,如门控多模态单元(GMU) (Aguilar等,2019)、多模态对齐模型(MMAN) (Xu等,2019)和多模态注意机制(cLSTM-MMA) (Pan等,2020)。这些方法使用不同的单模态子网络对每个模态的上下文表征建模,然后使用多模态注意机制有选择地融合不同模态的表征。Liang等人(Liang et al, 2020)提出了一种半监督多模态(SSMM)情绪识别模型,该模型使用跨模态情绪分布匹配来利用未标记的数据来学习鲁棒表示并实现最先进的性能。
模态缺失问题现有的模态缺失问题的方法主要分为三类。第一组的特点是数据增强方法,该方法随机删除输入以模拟缺失模态情况(Parthasarathy和Sundaram, 2020)。第二组基于生成方法,在给定可用模式的情况下直接预测缺失模式(Li等人,2018;Cai