【CTFN】基于耦合翻译融合网络的多模态情感分析的层次学习

同样用了翻译模块的论文->MTMSA

代码地址->github地址

abstract

多模态情感分析是一个具有挑战性的研究领域,涉及多个异构模态的融合。主要的挑战是在多模式融合过程中出现一些缺失的模式。然而,现有的技术需要所有的模态作为输入,因此在预测时间对缺失的模态很敏感。在这项工作中,首次提出了耦合翻译融合网络(CTFN),通过耦合学习来建模双向相互作用,确保了对缺失模态的鲁棒性。具体来说,为了提高翻译性能,提出了循环一致性约束,允许我们直接丢弃译码器,只包含Transformer的编码器。这可能有助于一个更轻的模型。由于耦合学习,CTFN能够并行进行双向交叉模态相关。在CTFN的基础上,进一步建立了利用多重双向翻译的分层结构,与传统翻译方法相比,实现了双重多模态融合嵌入。此外,利用卷积块进一步突出这些翻译之间的显式交互。为了进行评估,CTFN在两个多模式基准上进行了广泛的消融研究。实验表明,所提出的框架达到了最先进的或经常具有竞争力的性能。此外,当考虑缺失模态时,CTFN仍然保持鲁棒性。

intro

情感分析在人工智能领域取得了许多重大进展,其中文本(Yadollahi等人,2017)、视觉(Kahou等人,2016)和声学(Luo等人,2019)模式分别主要用于相关研究,从而可以有效地利用人类的情感特征和意图(Deng等人,2018)。直观上,由于不同来源之间的一致性和互补性,联合表示参与了多模态消息的推理,能够提高特定任务的性能(Pan et al ., 2016;Gebru et al ., 2017;Al Hanai et Al, 2018)。

多模式融合过程是将多种知识结合起来,以预测精确和适当的结果(Baltrusaitis等人,2018)。从历史上看,现有的融合通常是通过利用模型不可知的过程来完成的,考虑到早期融合、晚期融合和混合融合技术(Poria et al, 2017a)。其中,早期的融合集中在单峰表示的串联上(D 'mello和Kory, 2015)。

相比之下,后期融合通过对所有模型结果进行投票,在决策层面进行整合(Shutova et al, 2016)。对于混合融合,输出来自早期融合和单峰预测的结合(Lan et al, 2014)。然而,多模态情感序列往往由不对齐的属性组成,传统的融合方法未能考虑到异质性和不对齐,这给研究更复杂的模型和估计情感信息带来了问题。(Tsai et al ., 2020;Niu et al, 2017)。

最近,基于transformer的多模态融合框架被开发出来,借助多头注意机制来解决上述问题(Rahman等,2020;Le et al, 2019;Tsai et al, 2019)。通过引入标准Transformer网络(Vaswani等人,2017)作为基础,Tsai等人(Tsai等人,2019)以端到端方式直接从未对齐的多模态流中捕获集成,通过跨模态注意力从一种模态潜在地适应到另一种模态,不管是否需要对齐。此外,Wang等人(Wang et al, 2020)提出了一种并联Transformer单元,可以有效地探索多模态知识之间的相关性。然而,为了提高转换性能,采用了标准Transformer的解码器组件,这可能会导致一些冗余。此外,跨情态翻译之间的显式相互作用也没有被考虑在内。本质上,与我们的CTFN相比,它们的架构需要访问所有模态作为输入,以探索与顺序融合策略的多模态相互作用,因此在多个缺失模态的情况下相当敏感。

本文提出了基于耦合学习的CTFN模型来模拟双向相互作用,以确保对缺失模态的鲁棒性。具体来说,为了提高翻译性能,我们提出了循环一致性约束,允许我们直接丢弃译码器,只包含Transformer的编码器。这可能有助于一个更轻的模型。由于耦合学习,CTFN能够并行地进行双向跨模态相互关联。以CTFN为基础,建立了一种层次结构来进行情态引导翻译。然后,提出卷积融合块,进一步探索上述翻译之间的显式相关性。重要的是,基于并行融合策略,我们的CTFN模型在只考虑一种输入模式时仍然具有灵活性和鲁棒性。

为了进行评估,CTFN在两个多模态情绪基准上进行了验证,CMU-MOSI (Zadeh等人,2016)和MELD (Poria等人,2019)。实验表明,与基线模型相比,CTFN可以达到最先进甚至更好的性能。我们还提供了几个扩展的烧蚀研究,以研究所提出模型的内在特性。

related work

现有的多模态情感融合架构包括两大类:基于翻译的模型和非基于翻译的模型。

非翻译:最近,基于rnn的模型,考虑到GRU和LSTM,在利用跨数据的上下文感知信息方面取得了重大进展(Yang等人,2016;Agarwal et al, 2019)。bc−LSTM (Poria et al, 2017b)和GME−LSTM (Chung et al, 2014)提出了一种基于LSTM的模型来检索上下文信息,其中单峰特征被连接成一个单元作为输入信息。类似地,MELD - base (Poria等人,2019)利用输入层上音频和文本特征的连接,并使用GRU对情感上下文建模。相比之下,CHF - usion (Majumder等人,2018)采用基于rnn的分层结构来绘制模态之间的细粒度局部相关性,经验证据表明,与单模态表示的简单串联相比,CHF - usion取得了更大的进步。MMMU−BA (Ghosal et al, 2018)在RNN的基础上,进一步采用多模态注意块来吸收所有相邻话语的贡献,表明注意机制可以利用邻域贡献来整合上下文信息。但是,所有这些方法都适用于单模态内的低层次表示,以非翻译的方式,容易对源中的噪声项和缺失信息敏感。

基于翻译的模型:受到最近成功的序列到序列(Seq2Seq)模型的启发(Lin等人,2019;?)在机器翻译中,(Pham等人,2019)和(Pham等人,2018)通过从源模态转换为目标模态的基本见解提出了多模态融合模型,该模型能够捕获多个模态之间更强大的关联。MCTN模型采用循环翻译模块,以顺序方式检索模态之间的鲁棒联合表示,例如,语言信息首先与视觉模态相关联,然后潜在地翻译成声学模态。与MCTN相比,Seq2Seq2Sent采用Seq2Seq方法引入了层次融合模型。对于第一层,模态对的联合表示被视为下一层Seq2Seq的输入序列,以尝试解码第三层模态。受基于Transformer模型成功的启发,Tsai等人引入了一个定向跨模态注意模块来扩展标准Transformer网络。Wang等人遵循Tsai等人的基本思想,提出了一种新的多模态融合单元,该单元由两个标准的transformer组成,隐含地包含了前向和后向翻译过程中与一个情态对的关联。然而,现有的模型都采用顺序多模态融合架构,需要所有模态作为输入,因此对多个模态缺失的情况比较敏感。此外,没有考虑跨情态翻译之间的显式相互作用。

方法

在本节中,我们首先介绍CTFN(图2),它能够通过耦合学习探索双向跨模态翻译。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值