上个礼拜做了实验室的小组论文分享,选择了这篇生成摘要领域高引的一篇经典论文给大家分享。所以重新梳理了一下论文的主要内容,方便日后回顾。没有把论文的全部内容翻译出来,只是按照自己对论文的理解做了一个概述性的总结。
b站有一个论文原作者的论文分享视频,感兴趣的可以去看一下Pointer-Generator Networks.
附上论文链接:Get To The Point: Summarization with Pointer-Generator Networks
目录
2.1 Sequence-to-sequence attentional model
1. Introduction
生成式摘要领域目前面临的两个问题:1)生成的内容会出现与细节事实不符合的内容,错误还原细节信息,离线词(OOV:Out-Of-Vocabulary)也是属于这个问题中的一种;2)重复生成相同的内容(这是RNN网络的遗留或者说常见问题)。本文的相关研究工作就是在此背景基础之上展开的。
引言部分还介绍了目前摘要的通用的方法:提取式摘要(extractive)和生成式摘要(abstractive),目前来说(截止2017年)生成式摘要模型多是基于注意力机制的seq2seq结构,并且多采用了循环神经网络来实现。
2. Our models
紧接着第二部分作者对本文提出来的一系列模型展开了详细的介绍。下面按照文章顺序依次分析。
2.1 Sequence-to-sequence attentional model
模型的第一部分内容我更愿意把它称作baseline模型,作者首先提出了一个baseline模型,这个模型结构图先放出来(图片来源于论文原文)

图1 Baseline模型
对文本摘要或者说文本生成有一定了解就知道这个基线模型是一个典型的seq2seq的结构,输如序列是原始数据集里面的文章序列,输出是模型生成的摘要结果序列。先不看上面的attention distribution部分,左边红色部分为模型的encoder,黄色部分为decoder部分。encoder采取的是一个双向的LSTM(biLSTM)结构,decoder采取的是一个单向的LSTM结构。(备注:在自然语言处理中,经常用到的网络结构都是循环神经网络,包括RNN、LSTM、GRU等,原因是循环神经网络可以保留输入序列的顺序,文本的输入序列对文本的理解是至关重要的,RNN可以从序列顺序里面获取到上下文信息)。
通常来说,在seq2seq模型中,encoder部分的LSTM最终有两个输出:一个是网络的output,另外一个是隐藏层状态h的输出,在最后一个单元我们丢掉output的信息,只保留状态信息,并将encoder的状态信息作为decoder的状态向量的初始化(这里相关的知识需要大家首先对LSTM有了解,简单的来说LSTM网络本身就有两个输入和两个输出,输入包括:初始化隐藏层状态向量c0和输入序列x1,x2,...,xt,输出也有两个,如上述所说),decoder从encoder获取到了初始化的状态信息,这个内容就表

最低0.47元/天 解锁文章
1109

被折叠的 条评论
为什么被折叠?



