前段时间,因为工作需要,对智能摘要做了调研,主要集中在神经网络方法,主要方法是生成式 abstract方法,应用seq2seq生成居多。(因调研报告写在word中,将word中图片需要存起来再贴到文章中,太耗时,就省去图片了,本文具体用处可以作为智能摘要的引导文章,重点可看框架和参考文献,相应图片自行补齐吧)
文章主要分五个部分:
1. 开放数据
2. 智能摘要形式
3. 评价指标
4. 模型发展
5. 参考文献
一、开放数据集
DUC, Daily Mail/CNN, Gigaword, LCSTS(唯一中文微博标题生成语料)[1]
二、智能摘要形式
Extract (抽取式,优点:语法无误,缺点:压缩性不高,句子间衔接不够通顺)
Abstract(生成式,优点:通顺,压缩性高;缺点:重复,oov问题)
三、评价指标[2-4]
Rouge-1
Rouge-2
Rouge-L
BLEU
四、模型发展
本文调研主要是智能标题的生成,headline形式对语义压缩要求较高,一般应该使用Abstract形式,故本文调研主要集中在神经网络在Abstract生成中应用
4.1 神经网络在Extract 形式的发展
a) Extract模型分类算法
SummaRuNNer便是一个典型的文本筛选网络[7],本文将文本摘要重要句子提取问题,变为一个分类问题(二分类),提取的句子为一个类型,不提取的句子为另一个类型。这种监督学习方法,需要标注,作者在此提出了免人工标注的一种近似方法,即根据rouge值得变化,没增加一个句子看rouge是否有变化,有标为提取句子。此处也使用了分层文本分类方法,分别是word层和sentence,两层均为双向rnn形式。达到了一个start of art的分数。
b) CNN的形式进行文章句子筛选[6]
本文使用CNN进行文