单文档摘要与数字图书馆内容追踪技术研究
在当今信息爆炸的时代,单文档摘要和数字图书馆的内容保护成为了重要的研究领域。单文档摘要有助于快速获取文档核心信息,而数字图书馆的内容保护则关乎版权所有者的权益。下面将详细介绍相关的研究实验和解决方案。
单文档摘要实验
数据集
单文档摘要在 DUC 2001 和 DUC 2002 中是基础任务之一。实验使用 DUC 2001 数据进行训练,DUC 2002 数据进行测试。DUC 2002 的任务 1 旨在评估长度约 100 字或更短的通用摘要,它提供了 567 篇英语新闻文章用于单文档摘要任务。这些文章的句子已被分离并存储信息。567 篇文章来自 TREC - 9,被分为 59 个簇,同一簇内的文档相关,适合直接应用所提出的方法,并且同一簇内所有文档的摘要可以批量生成。
在预处理阶段,对于每篇文档,会移除对话句子(引号内的句子),去除每个句子中的停用词,并使用 Porter 词干提取器对剩余单词进行词干提取。
评估指标
使用 ROUGE 评估工具包进行评估,它被 DUC 用于自动摘要评估。ROUGE 通过计算候选摘要和参考摘要之间的重叠单元(如 n - 元组、词序列和词对)来衡量摘要质量。ROUGE - N 的计算公式如下:
[
ROUGE - N = \frac{\sum_{S \in {Ref \cap Sum}} Count_{match}(n - gram)}{\sum_{S \in {Ref \cap Sum}} Count(n - gram)}
]
其中,n 表示 n - 元组的长度,$Count_{match}(n - gram)$
超级会员免费看
订阅专栏 解锁全文
1024

被折叠的 条评论
为什么被折叠?



