自动文本摘要技术详解
1. 自动摘要概述
自动摘要旨在从原始文本中提取关键信息,生成简洁且能反映原文核心内容的摘要。目前主要有基于抽取和基于理解两种自动摘要方法。
1.1 抽取式自动摘要
抽取式自动摘要仅对有用文本片段进行有限深度分析,效率和灵活性高,适用于大规模文本及对摘要连贯性要求不高的情况。其主要步骤包括句子权重计算、句子相似度计算和句子排序。
- 句子权重计算 :句子是否被选为摘要句通常基于其权重。计算句子权重的因素包括句子中包含的词的权重、句子所在段落的权重、句子在段落中的位置以及句子与文档中其他句子的相似度。影响句子权重的因素主要有以下七种:
1. 词频 :Luhn最早提出用词频统计进行摘要,但仅依靠词频表示词的权重是不够的。后来有人用相对词频作为词的权重。
2. 词在文档中的分布 :词在文档各段落的分布情况对其揭示主题的能力有显著影响。
3. 标题 :标题中的关键词对揭示文章主题起着重要作用,因此标题中出现的关键词权重较高。
4. 位置 :段落主题出现在首句的概率为85%,出现在尾句的概率为7%,所以需要增加特殊位置句子的权重。
5. 句法结构 :句子类型与句子重要性有一定联系,摘要中多为陈述句,疑问句、感叹句等不适合纳入摘要。
6. 线索词 :在H. E. Edmundson的摘要系统中,有预编译的线索词字典,分为正价值赞扬词、负
超级会员免费看
订阅专栏 解锁全文
1114

被折叠的 条评论
为什么被折叠?



