【论文笔记】【ACL2019】Searching for Effective Neural Extractive Summarization: What Works and What’s Next

本文围绕神经抽取式摘要系统展开研究,针对CNN/RNN/transformer等架构在该任务上效果好的原因提出疑问,构建测试平台进行对比实验,分析不同模型架构、可转移知识和学习模式的影响,还设置培训环境和测试场景,得出一些观察结果并有待进一步分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、

论文题目:Searching for Effective Neural Extractive Summarization: What Works and What’s Next

论文地址:https://arxiv.org/abs/1907.03491

源代码: https://github.com/fastnlp/fastNLP 

作者单位:

Ming Zhong∗, Pengfei Liu∗, Danqing Wang, Xipeng Qiu†, Xuanjing

HuangShanghai Key Laboratory of Intelligent Information Processing, Fudan University School of Computer Science

二、

本文主要针对抽取式摘要使用CNN/RNN/transformer等架构为什么能够得到很好的效果提出疑问,并进行了不同的对比实验,试图理解哪一种模型架构以及学习方法在本任务上具有更好的表现,以及如何进行改进,最后列出结果。

三、

一份粗制滥造的翻译

摘要: 

近年来,深度神经网络在文本摘要中的应用取得了显著的成功。然而,对于它们为何表现得如此出色,以及如何才能得到改善,目前还没有明确的理解。在本文中,我们试图更好地理解神经抽取摘要系统如何从不同类型的模型架构、可转移的知识和学习模式中获益。另外,我们找到了一种有效的方法来改进当前的框架,并在很大程度上实现CNN/DailyMail的最新成果。

介绍:

从架构上讲,更好的性能通常是以我们对系统的了解为代价的。到目前为止,我们对每个神经组件的功能以及它们之间的差异知之甚少(Peters et al., 2018b),这引发了以下典型问题:
1)不同的新体系结构(CNN、RNN、Transformer)的选择如何影响摘要系统的性能?
2)对于特定的数据集,组件的哪一部分是重要的?
3)目前的模型是否存在过度工程的问题?
理解上述问题,不仅可以帮助我们在不同的应用场景中选择合适的架构,而且可以激励我们向更强大的框架迈进。

外部可转移的知识和学习图式
显然,敏捷性和性能的提高不仅仅是因为从特征工程到结构工程的转变,还因为灵活地结合外部知识的方法

在这一部分中,我们首先回答以下问题:

1)哪种类型的预训练模型(监督的或非监督的预训练)对摘要任务更友好?

2)当对架构进行全面的探索时,我们是否可以通过引入外部可转移的知识或改变另一种学习模式,将最先进的结果推向一个新的水平?
为了对上述分析视角进行全面的研究,我们首先构建了一个总结系统的测试平台,在此基础上构建了培训和测试环境。在列车运行环境中,设计了不同的综合模型,分析了它们对列车运行性能的影响。具体来说,这些模型在架构类型上有所不同(编码器:CNN、LSTM、Transformer (Vaswani et al., 2017);解码器:自回归3,非自回归),ex- ternal可转移知识(GloVe (Penning- ton et al., 2014), BERT (Devlin et al., 2018), NEWSROOM (Grusky et al., 2018)和不同的学习模式(监督学习和约束-强制学习)。
为了深入研究上述测试用例的内部工作机制,我们在测试环境中提供了充分的评估场景。同时,我们提出了一个多领域的测试,句子变换测试,并通过不同的度量标准来分析模型:重复,句子长度和位置偏差,我们还开发了这个测试来更好地理解不同数据集的特征。
根据经验,我们的主要观察总结如下:
1)从结构上讲,使用自回归解码器的模型相对于非自回归解码器更容易获得更好的性能。此外,LSTM更容易出现架构过拟合问题,而Transformer更健壮。
2) CNN/ daily ymail语料库中提取摘要系统的成功,很大程度上依赖于对句子位置信息的学习能力。
3)无监督可转移知识比有监督可转移知识更有用,因为后者容易受到领域转移问题的影响。
4)我们找到了一种有效的方法来改进现有的租赁系统,并借助无监督的可转移知识(42.39 R-1分),在很大程度上实现了CNN/DailyMail的最新反馈(re- sult)。通过引入强化学习(42.69 R-1分)可以进一步提高这一结果。
希望这项详细的实证研究能为后续研究人员提供更多的线索,以设计更好的建筑,并沿着正确的方向探索新的先进成果。

3.1任务描述
现有的提取总结方法直接选择和输出原始文档中的突出句子(或短语)。
一般来说,大多数现有的抽取和系统都可以抽象成后续的框架,包括三个主要模块:句子编码器、文档编码器和解码器。首先,使用一个句子编码器将每个句子di转换成一个句子表示di。然后,这些句子表示将由si的文档编码器上下文化。最后,解码器将根据这些上下文化的句子表示提取句子子集。
3.2培训环境设置
这一步的目标是在模型架构、可转移的知识和学习方面提供典型的和不同的测试用例(模型)模式。
3.2.1句子编码器
我们用CNN层实例化我们的句子编码器(Kim, 2014)。我们没有探索作为句子编码器的其他选项,因为之前工作的有力证据(Kedzie et al., 2018)表明,现有句子编码器的差异对最终性能没有太大影响。
3.2.2文档编码器
我们研究了基于lstm的结构和transformer结构,它们都已被证明是有效的,并在许多其他NLP任务中取得了最先进的结果。为了使模型充分利用其结构偏差,允许叠加深层。
LSTM提出了专门解决这个问题学习的长期依赖,这已经被证明是有效的在一个广泛的NLP的任务,例如文本分类(刘et al ., 2017年,2016 b),语义匹配(Rocktäschel et al ., 2015;Liu等,2016a),文本摘要(Rush等,2015),机器翻译(Sutskever等,2014)。
transoformer(Vaswani et al., 2017)本质上是一种前馈式的自注意结构,通过注意机制实现成对交互。近年来,Transformer在许多其他NLP任务中取得了巨大的成功(Vaswani et al., 2017;(Dai et al., 2018),了解该神经模块如何执行文本摘要任务是很有吸引力的。
3.2.3译码器
现有的解码器结构大多可分为自回归和非自回归两种,本文对这两种解码器结构进行了研究。
序列标记(SeqLab)模型采用非自回归解码器,将提取摘要任务描述为一个序列标记问题。

Pointer Network 作为自回归解码器的代表,基于指针网络的解码器在提取摘要方面表现出了优越的性能(Chen and Bansal, 2018;(Jadhav and Rajan, 2018)。指针网络使用瞥操作通过注意机制选择句子(Vinyals et al., 2015)。当指针网络提取一个句子时,它会感知到之前的预测。
3.2.4外部可转移知识
基于神经网络的模型在NLP任务上的成功,不能仅仅归因于从特征工程到结构工程的转变,而是灵活地结合外部知识的方法(Mikolov et al., 2013;Peters等,2018a;Devlin等,2018)。外部可转移知识最常见的形式是在其他语料库上预先培训的语料库。
为了研究不同的预训练模型对摘要系统的影响,我们考虑了以下预训练知识。

Unsupervised transferable knowledge 
本文探讨了两种典型的无监督可转移知识:上下文无关的词嵌入(Mikolov et al., 2013;和上下文化单词嵌入(Peters et al., 2018a;Devlin等人(2018)最近将大量NLP taks的最新结果提升到了一个新的水平。
Supervised pre-trained knowledge 
除了非监督预训练的知识,我们还可以利用网络的参数预训练对其他摘要数据集。该方法的价值在于了解不同数据集之间的可移植性。为了实现这一点,我们首先在编辑室数据集(Grusky et al., 2018)上对我们的模型进行预培训(Grusky et al., 2018),这是最大的数据集之一,包含来自不同领域的样本。然后,我们在我们研究的目标领域上微调我们的模型。

3.2.5学习模式
利用外部知识提供了一种方法,从引入额外数据的角度来寻求新的最先进的结果。另外,另一种方法是改变模型的学习模式。本文还通过比较监督学习和强化学习,探讨了不同的学习模式对提取总结系统的影响。
3.3测试
我们提供了足够的评估场景来获得测试模型的内部工作机制。
ROUGE-1 ROUGE-2 ROUGE-L F1
重复:我们设计重复评分来测试不同架构在避免生成不必要的冗长重复信息方面的行为差异。
位置偏差
研究数据集的真值分布是否不同以及它如何影响不同的体系结构。我们设计了一个位置偏差来描述不同数据集中真值分布的均匀性。我们将每篇文章分成k个部分(我们选择k = 30,因为CNN/DailyMail和NEWSROOM的文章平均有30个句子),p(i)表示第一个golden标签出现在文章第一部分的概率。
句子的长度
句子长度会在一定程度上影响不同的度量标准。
我们通过计算不同解码器提取的第k个句子的平均长度,来探究解码器是否能够感知句子的长度信息。
句子shuffle
我们试图探讨句子位置信息对不同结构的影响。因此,我们打乱句子的顺序,观察不同架构对无序句子的鲁棒性。

4 Experiment

4.1 Datasets

CNN/DailyMail NEWSROOM

4.2 Training Settings

使用cross entropy loss和强化学习(使用precision of ROUGE- 1 as a reward 代替 F1 ROUGE-L)。
对于上下文无关的单词表示(GloVe、Word2vec),直接使用它们初始化每个句子的单词,这些单词可以在训练阶段进行微调。
对于BERT,将文章截到512 tokens过基于特征的BERT(没有梯度),将最后四层连接过MLP得到128维的token embed。

4.3 Experimental Observations and Analysis

4.3.1 Analysis of Decoders

4.3.2 Analysis of Encoders

待更。。

综述性论文看的好困。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值