文档摘要自动提取算法——抽取式
自动提取文档摘要的算法,主流方法分为两类:Extractive 抽取式、Abstractive 概要式。这篇我们主要将抽取式。
抽取式:
从原始文档集中抽取一些具有代表性的文本片段构成摘要,这些片段可以是整个文档中的句子、子句、段落或者小节。
抽取式方法有两个问题,如何对文本单元排序打分;如何抽取文本单元的一个子集生成摘要。分别对应着排序单元和抽取单元。
通俗讲就是,先用排序单元把文档中的单元排序,选择排名靠前的单元,再用抽取单元去除选出来的单元之间的冗余信息,得到最后的自动摘要。
两种实现思路:1)排序单元给句子打分,抽取单元抽取(去除冗余)句子子集作为摘要;2

自动提取文档摘要的算法主要分为抽取式和概要式。本文聚焦于抽取式,介绍如何通过排序单元对文本打分并抽取代表性文本,以及利用整数规划去除冗余信息,生成摘要。排序单元涉及pointwise、pairwise和listwise等学习排序算法,而抽取单元则通过整数规划方法确定摘要中的句子集合。
最低0.47元/天 解锁文章
1192

被折叠的 条评论
为什么被折叠?



