
自动文摘
文章平均质量分 94
zxhohai
学生党,学习提升ing
展开
-
自动文摘(Automatic document summarization)方法综述(二)——基于最优化的(optimization-based)方法
在上一篇博客中,我总结了基于中心(centroid-based)的方法和基于图(graph-based)方法。这两类方法的重心都集中在给文本单元打分上,也就是判断文本单元对原始文档的覆盖度(coverage)或者说文本单元与文档主题的相关度(relevance),进而得到文本单元的重要性权重。这只考虑了自动文摘的第一个要素,没有考虑文本单元之间的相似度可能带来的冗余。一般来说,生成一份高质量的自动...原创 2018-08-21 15:40:14 · 2584 阅读 · 0 评论 -
自动文摘(Automatic document summarization)方法综述(一)——基于中心的(Centroid-based)与基于图的(graph-based)方法
从Luhn1958年发表第一遍自动文摘论文开始,自动文摘(Automatic document summarization)一直是自然语言处理中最为活跃的分支。自动文摘希望通过计算机自动将冗长的文本压缩到规定长度内,同时保持原始文本主要信息不丢失。在信息爆炸的互联网时代,每时每刻互联网上都在积累更多的文本;而移动互联网的到来,对信息的呈现方式也提出了更高的要求,因此自动文摘的重要性和迫切需求更为凸...原创 2018-08-12 15:07:07 · 4614 阅读 · 2 评论 -
自动文摘(Automatic document summarization)方法综述(三)——基于次模函数(submodular function)最大化的方法
自动文摘(Automatic document summarization)方法综述的第一篇文章(一)总结了基于中心的(Centroid-based)方法和基于图的(graph-based)方法,第二篇文章(二)总结了基于最优化的(optimization-based)的方法。这篇博客将依旧整理基于最优化方法选取文本单元的方法,更确切的说,这篇博客将聚焦在次模函数(submodular funct...原创 2018-10-04 21:05:49 · 13632 阅读 · 0 评论 -
自动文摘(Automatic document summarization)方法综述(四)——基于神经网络的(neural summarization)方法
前三篇博客(一)、(二)、(三)总结了抽取式自动文摘的一些经典方法,传统抽取式自动文摘方法将文档简单地看作是一组文本单元(短语、句子等)的集合,忽略了文档所表达的全局语义,难免“断章取义”。随着算力的提升,深度学习在很多应用中非常的火热也取得了state-of-the-art的性能,因此,将神经网络模型引入自动文摘任务是理所当然的,将文档用神经网络模型进行表示被称为神经文档模型(neural do...原创 2018-10-31 22:21:45 · 4643 阅读 · 2 评论