1 短版
自动生成文本摘要主要有两类方法,第一类是通过关键词,位置等多种特征,摘取原文内容做摘要,简称“摘取式摘要”。第二类是通过深度学习模型学习大量数据进行编码,解码,产生抽象的摘要内容,摘要内容来源不限于原文内容,简称“生成式摘要”。
第一类方法是传统摘要方法,常见应用于新闻摘要,但是该方法扩展性,通用性很有限,难以适应多变的文本内容。
第二类方法是最新基于深度学习的方法,可以应用于各种文本,不过生成的摘要通常是一句话,不适合生成比较长的摘要(难度太大)。这种方法是近两年,学术界研究的热点内容。主要模型就是深度学习的模型之一,Seq2Seq 模型,同时加上Attention学习机制。其中Seq2Seq模型,是由两个深度学习模型组成,一个负责对原文进行编码(encode),一个负责对摘要进行解码(decode),通常采用RNN模型(包含LSTM,GRN等变种模型),也可以使用其他深度学习模型。
Seq2Seq模型示意图:
由于近些年深度学习的发展很热,在2015年到2016年期间,学术界出现了大量基于深度学习(主要是Seq2Seq模型)做文本摘要的论文,论文中描述的生成式摘要,可以得到比较好的结果。而且Google的Tensorflow机器学习框架,也在业界越来越流行。本次分析测试“生成式”文本摘要模型,主要目的是,验证分析,目前业界最新的深度学习技术,在文本摘要领域,具体的应用效果,能否达到商用要求,能否具体应用于某个领域。同时,实践分析Tensorflow框架,测试该框架的实用效果,运行效率等。

本文探讨了生成式文本摘要的两种方法,重点分析了基于深度学习的Seq2Seq模型在文本摘要领域的应用,尤其是Google的textsum模型。尽管Seq2Seq模型能生成抽象句子,但针对特定文章生成摘要仍具挑战,训练效率低且结果不稳定。此外,Tensorflow框架虽然资源丰富,但调参复杂,运行效率待提升。
最低0.47元/天 解锁文章
1911

被折叠的 条评论
为什么被折叠?



