融合句子间跨文档关系的单文档摘要方法
1. 引言
文本摘要旨在自动为用户生成给定文本的精简版本,提供有用信息。近年来,自动文本摘要在众多文本应用中愈发重要,吸引了大量关注。例如,搜索引擎会为搜索结果文档提供简短摘要,方便用户浏览;新闻机构会提供简洁的头条新闻和每周新闻回顾,节省用户时间并提升服务质量。
文本摘要可分为查询相关摘要和通用摘要。查询相关摘要用于搜索引擎,内容需与查询紧密相关;通用摘要则要涵盖文档主要主题,同时尽量减少冗余。自动生成高质量的通用单文档摘要,在缺乏额外线索和先验知识的情况下,是一项巨大挑战。本文聚焦于通用单文档摘要。
以往的单文档摘要方法大多仅基于文档自身信息生成摘要。但在某些情况下,会有一组相关文档,需要对其中的单文档进行摘要。本研究旨在探索不同但相关文档中句子间的跨文档关系,能否助力单文档摘要任务。本文提出将句子间的跨文档关系和文档内关系融入基于图的排序算法,为单文档摘要服务。通过考虑这两种关系,每个句子获得全局排名分数以表示信息丰富度,再用贪心算法对句子施加多样性惩罚,最终选择信息丰富度和新颖性高的句子组成摘要。实验结果表明,跨文档关系能显著提升单文档摘要性能。
2. 相关工作
近年来,自然语言处理和信息检索领域对单文档摘要进行了广泛探索。一系列研讨会和会议推动了该技术发展,并产生了一些实验性在线系统。
单文档摘要方法主要分为基于提取和基于抽象两类。基于提取的方法更简单,只需选择现有句子;基于抽象的方法则需进行句子压缩和重构。本文关注基于提取的方法。
基于提取的方法通常为每个句子分配显著性分数并排序,分数基于统计和语言特征组合确定,如词频、句子位置、提示词等。机器学习
超级会员免费看
订阅专栏 解锁全文
7395

被折叠的 条评论
为什么被折叠?



