ECPE based on Joint Two-Dimensional Representation,Interaction and Prediction

介绍ECPE-2D,一种用于情感-原因配对提取的端到端联合框架,通过二维表示、交互和预测改进了现有两步管道方法的缺陷。实验显示,ECPE-2D在基准语料库上显著提升了F1得分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

南理工夏瑞老师团队发表在ACL2020的文章

一、 背景

我打算从问题以及其解决方法这一方面切入,回顾一下在此领域科研工作者做了哪些工作。
为什么会提出ECPE?
传统的ECE任务有一下两个缺点:
1)在ECE中,在原因提取时,情绪标签要求是已经被标注好的,这就极大地限制了其在现实世界的应用。
2)先有情绪标签,虽然能直接进行情感原因识提取,但是这忽略了一个事实,那就是情绪和情绪原因是相互影响的。
为了解决ECE模型以上提出的问题,南理工夏瑞老师团队首次提出了ECPE模型,从ECE模型给出情绪标签挖掘与其相对应的情感原因转化为了多任务学习问题,将情绪和其对应的情感原因联合抽取,并且将情绪子句和情绪原因子句进行交互,这样就解决了ECE遇到的问题。
事物总是向前发展的,人也总是不满于现状。
为什么会提出ECPE-2D?
ECPE模型为两步走的框架,首先,ECPE模型会分别抽取各自的情感集和原因集合(此处有三种方法,分别为Indep,Inter-EC,Inter-CE),随后,ECPE模型会在这两个集合上进行笛卡尔积得到情绪-情绪原因句对,最后,再利用filter得到最终有效的情绪-情绪原因句对。However,这种两步走的管道方式也会有一下问题:
I)ECPE模型并没有直接抽取最终的emotion-cause pair。
2)第一步产生的错误会继续传播到第二步,影响第二步的结果。例如,在第一步时,真证的情绪子句没有被提取出来,那么第二步也就缺失掉了可能与这个情绪子句的句对,必然会使整个模型Recall降低。ECPE模型具体实例如下图所示:
在这里插入图片描述
图上解释的也都挺清晰明了,我就不再赘述了。(不想打字了)
事物总是向前发展的,人也总是不满于现状。
为了解决ECPE面临的种种问题,咱们来看看夏瑞老师团队是如何解决的。

二、 模型

输入是一篇包含多个句子的文档
在这里插入图片描述
ECPE的目标是在文档d中抽取一系列的情绪原因对。
在这里插入图片描述
ECPE-2D的输入与目标与ECPE的输入与目标是完全一样的。

ECPE-2D模型包括三部分:
1)2D Emotion-Cause Pair Representation;
2)2D Emotion-Cause Pair Interaction;
3)2D Emotion-Cause Pair Prediction.

首先,使用情绪/原因编码器得到各自的表示向量,所以会得到整个文档的情绪表示和原因表示,在情绪和原因两个集合上利用笛卡尔积得到全部的句对表示,用a 2D representation matrix来表示;ECPE-2D具体事例如下图(此图跟ECPE实例用到的文档是一样的,包括6个子句)所示:
在这里插入图片描述
随后,ECPE-2D会利用a 2D transformer module在句对之间进行交互;
最后,得到足够全局信息的句对表示被送入到softmax层,来预测句对是否是有效的。
emotion-cause pair extraction架构如下图所示:
在这里插入图片描述

三、 技术

3.1 2D情绪原因对表示
3.1.1 情绪/原因编码
子句编码器层的目的是为文档中的每个子句生成特定的情绪表示和特定的原因表示。输入是一个包含多个子句的文档:d = [c1;c2;…;cd],每个子句还包含多个单词ci = [wi,1;wi,2;…;wi,ci]。采用一个包含两层的递阶神经网络来捕获词-句子-文档结构。
较低层由一组词级别的Bi-LSTM模块组成,每个模块对应于一个子句,并为子句的每个单词积累上下文信息。基于双向LSTM得到第i子句第j个单词hi,j的隐藏状态。然后采用注意机制来获取子句表示si。
上层由两个独立的组件组成,两个组件都采用子句表示(s1;s2;…;sd)作为输入,使用两个句子级BiLSTMs分别得到在这里插入图片描述
在这里插入图片描述
,然后分别输入到两个softmax层中,得到情感预测在这里插入图片描述
和原因预测在这里插入图片描述

在这里插入图片描述
需要注意的是,这里单独的情绪/原因编码器是一个兼容模块。其他情感/原因编码,如Inter-CE,Inter-EC (Xia and Ding, 2019)和BERT (Devlin et al., 2019)也可以使用。我们将在实验中对它们进行比较和讨论。
3.1.2 情感原因配对
与只从单独情感集合和原因集合中提取对的ecpe -2steps方法(Xia and Ding, 2019)相比,我们考虑d中所有可能的子句对作为候选。假设文档的长度为d,则所有可能的对构成形状为dd的矩阵M,其中行和列分别表示文档中emotion子句和cause子句的索引。在这里插入图片描述
是M的第i行和第j列中的元素,表示由第i子句和第j子句组成的情感-原因对,编码为:
在这里插入图片描述
其中在这里插入图片描述
在这里插入图片描述
是第i个子句ci的情绪表示和情绪预测,在这里插入图片描述
在这里插入图片描述
是第j个子句cj的原因表示和原因预测。j是cj相对于ci的相对位置嵌入向量。
3.2 2D情感原因对交互
在上一节中,我们获得了一个包含所有可能的情感-原因对的2D表示矩阵。矩阵中的每个元素都代表了一个特定的情绪-原因对。
考虑到长度为d的文档将生成d
d个可能的情感-原因对,其中只有一小部分对是正例,对于使用单独的对表示来说,对于情感-原因对预测则不能充分利用这一全局信息。因此,我们进一步为ECPE任务设计了一个2D Transformer,以有效实现情感-原因对之间的交互。
3.2.1 标准 2D Transformer
标准的2DTransformer (Vaswani等人,2017)由N层堆叠组成。每一层由两个子层组成:一个多头二维自注意机制(a multi-head 2D self-attention mechanism)和一个位置上的前馈网络(a position-wise feed forward network)。
Multi-head 2D Self-attention.多头二维自注意首先计算文档d中每对在这里插入图片描述
的query向量qi,j,key向量ki,j和value向量vi,j:
在这里插入图片描述

其中Wq, Wk, Wv分别是查询,键和值的参数。
对于每对在这里插入图片描述
,都是一组权重函数。βi,j = 在这里插入图片描述
是学习得到的:在这里插入图片描述
然后考虑所有M中所有的d*d对,得到在这里插入图片描述的新特征表示:在这里插入图片描述

Position-wise Feed Forward Network.在注意子层的基础上,对每对注意子层分别采用相同的位置前馈网络:在这里插入图片描述

应该注意的是,上面两个子层都使用残差连接,然后在输出处使用归一化层:在这里插入图片描述
如前所述,标准的2Dtransformer由N层的堆栈组成。设l为transformer层下表数。前一层的输出将作为下一层的输入:在这里插入图片描述

3.2.2 窗口受限2D Transformer
考虑到大部分原因子句都围绕着情绪子句,我们提出了窗口约束的2D transformer,它是一个标准的2D transformer,只取满足j-i∈[-window,window]的 作为输入.
窗口约束的2D transformer输出的是d*(window2+1)个元素,每个元素都需要计算d(window2+1)个注意权值,最终需要计算[d(window2+1)][ d*(window2+1)]的权值并临时存储。
值得注意的是,与标准的2D transformer相比,窗口约束transformer不仅极大地降低了资源需求,而且由于窗口外的大部分对都是负样本,在一定程度上缓解了类不平衡问题。
3.2.3 交叉十字路口 2D Transformer
由于同一行或同列的对的特征表示更接近,我们认为同一行、同列的对对当前对的影响更大。因此,我们提出了一种十字路口二维transformer,将多头二维自注意机制替换为十字路口二维自注意机制,其余部分保持不变。
在十字路口二维自我注意中,我们计算每一个对的一组在这里插入图片描述
行权重 在这里插入图片描述
= 在这里插入图片描述
和一组列权重 在这里插入图片描述

在这里插入图片描述
然后,通过考虑同列同行对,得到了在这里插入图片描述
新的特征表示:在这里插入图片描述
十字路口2D transformer输出的是d d个元素,每个元素需要计算(d+d)个注意权值,最终需要计算(dd)
(d*2)权值并临时存储。
这样,每对在这里插入图片描述
的新表示可以编码同行同列的所有对上的信息。此外,如果交叉道路2D transformer执行两次或两次以上,每对的特征表示可以编码M中所有对的全局信息,而标准2D transformer需要更多的资源来实现这一点。
3.3 2D 情感原因对预测
经过N个二维transformer层的堆叠,我们可以得到每对在这里插入图片描述
的最终表示在这里插入图片描述
,并预测情感-原因对分布在这里插入图片描述
如下:在这里插入图片描述
一篇文档d的情绪原因对分类的损失为:
在这里插入图片描述

式中在这里插入图片描述
在这里插入图片描述
的情感原因对的真实分布。
为了得到更好的情绪表示和原因表示,我们引入了情绪预测和原因预测的辅助损失:在这里插入图片描述

其中,在这里插入图片描述
在这里插入图片描述
分别是子句ci的情感标签和原因标签。对于文档d,我们模型的最终损失是Lpair,Laux和l2正则化项的加权和,如下:在这里插入图片描述

其中,λ1,λ2,λ3∈(0,1)为权值,其中,θ代表权值为模型中所有参数

四、 实验结果及分析

4.1 整体性能
在这里插入图片描述
表2展示了我们的模型和基线方法以及两个子任务(情绪提取和原因提取) 在ECPE任务上的实验结果。
ECPE-2Steps是我们在之前的工作(Xia and Ding, 2019)中提出的一组两步管道方法,首先通过多任务学习进行单独情感提取和原因提取,然后进行情感-原因配对和过滤。具体来说,有三种多任务学习设置:
1) Indep:独立的多任务学习方法,情感提取和原因提取是独立建模的。
2) Inter-CE:是一种交互式的多任务学习方法,使用原因提取的预测来提高情绪提取。
3) Inter-EC:是另一种交互式的多任务学习方法,使用情绪提取的预测来增强原因提取。
ECPE-2D是本文提出的一种端到端并且集成二维情感原因对表示、交互和预测的联合框架。我们探索了三种单独情感/原因编码设置:Indep, Inter-CE和Inter-EC,以及三种情感-原因对交互设置:
1) -表示我们不引入情感原因对互动;
2) +WC表示我们使用window-constrained 2D transformer进行情感-起因对交互;
3) +CR表示我们使用十字路口2D变压器进行情感-原因对交互;
注意,由于GPU内存的限制,我们还不能用标准的2D Transformer进行实验。
首先,我们提出的模型ECPE-2D (Inter-EC+WC)在所有任务的所有度量指标上都优于ECPE-2Step,证明了我们方法的有效性。
在ECPE任务中,ECPE-2Steps (Inter-EC)在所有以前的方法中执行得最好。与ecpe-2Steps(Indep)相比,ecpe-2Steps(Inter-EC)的提高主要体现在召回率上,而准确率得分略有下降。在ecpe-2Steps(Inter-EC)的基础上, ECPE-2D (Inter-EC+CR)的召回率进一步提高了,精确度得分也略有提高,最终在F1得分上取得了较好的成绩。
在情绪提取子任务和原因提取子任务上,ECPE-2steps(Inter-CE)和ECPE-2steps (Inter-EC)通过利用情绪和原因的交互作用,分别比ECPE-2steps(Indep)在前两个子任务上取得了显著的改善。而我们的方法ECPE-2D (Inter-EC+CR)在两个子任务上都优于以前的方法。我们将这一改进归功于多任务学习,与ecpe -2Steps(Inter-EC)模型相比,ECPE-2D (Inter-EC+CR)增加了情感-原因对提取任务,并在统一框架下对三个任务进行训练。
此外,我们还探讨了在Inter-EC中使用BERT2 (Devlin et al., 2019)作为子句编码器的效果,记为Inter-EC (BERT)。表2中的实验结果表明,采用BERT作为子句编码器,所有任务的性能都有了进一步的提高(特别是ECPE任务的顶级F1得分从61.28%提高到68.89%)。
4.2 ECPE-2D vs. ECPE-2Steps
为了验证我们提出的联合框架ECPE-2D的效果,我们抛弃了情感原因对交互模块,并将ECPE-2D模型与基于相同的独自编码设置的ECPE-2Steps模型进行比较,结果如表2所示。
通过对ECPE- 2d (Indep)和ECPE-2 - step (Indep)的比较,我们发现ECPE- 2d (Indep)在所有任务(特别是ECPE任务)的所有指标上都有了显著的提高。在ECPE任务中,ECPE- 2d (Indep)的性能甚至优于ECPE- 2Steps(Inter-EC),这是之前的最先进的模型。在这两个子任务上,性能也得到了提高。我们将改进归因于多任务学习,与ECPE-2Steps(Indep)模型相比,ECPE- 2d (Indep)额外引入了情感-原因对提取任务。
通过比较ECPE-2D (Inter-CE)和ECPE-2D (Inter-EC)及其两步管道版本(ECPE-2Steps (Inter-CE)和ECPE-2Steps (Inter-EC)),我们可以得出类似的结论。这些结果都证明了所提出的联合框架ECPE- 2d在解决ECPE任务方面优于两步管道框架ECPE- 2step。
4.3 2D Transformer的有效性
与ECPE- 2d (Indep)模型相比,ECPE- 2d (Indep+WC/CR)模型可以对ECPE任务进行进一步改进,但对两个子任务的改进不显著。通过比较ECPE-2D(Inter-CE)和ECPE-2D(Inter-CE+WC/CR),以及ECPE-2D(InterEC)和ECPE-2D(Inter-EC+WC/CR),可以得出类似的结论。特别是,与强大的基线ECPE-2D (Inter-EC(BERT))相比,性能仍然可以通过引入两种2D变形器来提高。这些结果表明,基于窗口受限和十字交叉路口二维Transformer能够通过编码对之间的交互信息有效地提高ECPE任务的性能。
此外,我们发现对于ECPE-2D (Indep/Inter-CE/Inter-EC/Inter-EC(BERT)),引入窗口约束和十字交叉路口2D transformer带来的改进是相似的。这些结果表明,两个2D transformer具有可比性。
4.4 辅助监督的有效性
为了探究情绪提取和原因提取两个子任务的辅助监督对ECPE任务最终性能的影响,我们设计了如表3所示的实验。-AS表示去掉了辅助监督(实际中,我们将式(20)中的公式中公式2设为0)。
在这里插入图片描述
与ECPE- 2d (Indep/Inter-CE/InterEC)相比,我们发现ECPE- 2d (Indep/Inter-CE/Inter-EC)-AS在ECPE任务中的F1得分分别下降了1.4%、2.2%和2.6%,说明情绪提取和原因提取的监督是ECPE任务的重要组成部分。尽管如此,ECPE- 2d (Indep)- as的结果仍然优于ECPE- 2Step (Indep),并且可以与之前的最新研究结果相媲美,这表明情感-原因对提取可以单独进行,证明了我们的联合框架的有效性。
与ECPE- 2d (Inter-EC+WC/+CR)相比,ECPE- 2d (Inter-EC+WC/+CR)- AS在ECPE任务中的F1得分下降约1.1%和0.8%,远低于ECPE- 2d (Inter-EC)和ECPE- 2d (InterEC)-AS之间的下降2.6%。结果表明,引入双编码器后,移除辅助监督的负面影响得到了降低。从另一个角度看,当辅助的监督被删除时,引入成对编码器带来的改进是更大的。将ECPE-2D (InterCE+WC/+CR)、ECPE-2D (Indep+WC/+CR)和-AS版本进行比较,得到相似的结论。上述结果再次证明了所提出的二维transformer的有效性。

五、 总结

情感-原因配对提取(ECPE)任务最近引起了人们的关注。然而,先前的方法采用两步管道的框架,存在一些固有的缺陷。本文提出了一种名为ECPE-2D的联合端到端框架,以二维表示方式来表示情感-原因对,并将二维情感-原因对表示、交互和预测集成到一个联合的框架中。我们还开发了两种二维transformer,即窗口约束和十字交叉的二维transformer,以进一步建模不同的情感-原因对的交互作用。在基准情感起因语料库上的实验结果表明,除了联合建模的优点外,我们的方法在ECPE任务上的F1得分比最先进的方法高出7.6个百分点。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值