神经网络在智能摘要中应用

本文主要探讨神经网络在智能摘要中的应用,重点关注生成式摘要方法seq2seq。内容涵盖开放数据集、智能摘要形式、评价指标、模型发展历程,如CNN、RNN、Attention等在提取式和生成式摘要中的应用,并介绍了与强化学习和GAN的结合。

前段时间,因为工作需要,对智能摘要做了调研,主要集中在神经网络方法,主要方法是生成式 abstract方法,应用seq2seq生成居多。(因调研报告写在word中,将word中图片需要存起来再贴到文章中,太耗时,就省去图片了,本文具体用处可以作为智能摘要的引导文章,重点可看框架和参考文献,相应图片自行补齐吧)
文章主要分五个部分:
1. 开放数据
2. 智能摘要形式
3. 评价指标
4. 模型发展
5. 参考文献

一、开放数据集
DUC, Daily Mail/CNN, Gigaword, LCSTS(唯一中文微博标题生成语料)[1]

二、智能摘要形式
Extract (抽取式,优点:语法无误,缺点:压缩性不高,句子间衔接不够通顺)
Abstract(生成式,优点:通顺,压缩性高;缺点:重复,oov问题)

三、评价指标[2-4]
Rouge-1
Rouge-2
Rouge-L
BLEU

四、模型发展
本文调研主要是智能标题的生成,headline形式对语义压缩要求较高,一般应该使用Abstract形式,故本文调研主要集中在神经网络在Abstract生成中应用
4.1 神经网络在Extract 形式的发展
a) Extract模型分类算法
SummaRuNNer便是一个典型的文本筛选网络[7],本文将文本摘要重要句子提取问题,变为一个分类问题(二分类),提取的句子为一个类型,不提取的句子为另一个类型。这种监督学习方法,需要标注,作者在此提出了免人工标注的一种近似方法,即根据rouge值得变化,没增加一个句子看rouge是否有变化,有标为提取句子。此处也使用了分层文本分类方法,分别是word层和sentence,两层均为双向rnn形式。达到了一个start of art的分数。

b) CNN的形式进行文章句子筛选[6]
本文使用CNN进行文

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值