基于遗传算法的抽象多文档文本摘要方法研究
1. 自动文本摘要方法概述
自动文本摘要(ATS)方法主要分为抽象式和提取式两种。抽象式文本摘要通过融合和生成新文本来描述最重要的事实;提取式文本摘要则是从文本中提取句子或其他部分并拼接成摘要。
根据文档数量,摘要技术可分为单文档文本摘要(SDTS)和多文档文本摘要(MDTS)。MDTS 的主要目标是让用户在较短时间内了解文档集合中的主题和重要信息。自 20 世纪 90 年代中期以来,随着文档理解会议(DUC)和文本分析会议(TAC)等评估程序的发展,MDTS 受到了广泛关注。
本文提出了一种基于遗传算法(GA)的新 MDTS 方法,以下将详细介绍该方法。
2. 提出的方法
2.1 预处理
该方法包含三个步骤:
1. 对文档集合按时间顺序排序。
2. 将原始文本调整为适合 GA 输入的格式,即将原始文本拆分为句子。
3. 对文档集合进行文本预处理,具体操作如下:
- 将文本按逗号分割成单词。
- 在文本中添加标签以区分数量、电子邮件等信息。
- 进行词法分析。
2.2 文本模型
文本建模的目标是预测自然词序列的概率,对出现的词序列赋予高概率,对未出现的词序列赋予低概率。最简单且最成功的文本建模形式是 n - 元模型,n - 元被定义为给定序列中连续元素的子序列。
2.3 遗传算法
基本配置
GA 的基本配置如下:
- 初始种群随机生成,后续世代的种群通过选择/繁殖过程生成。
- 当满