52、单文档摘要与数字图书馆内容追踪技术研究

单文档摘要与数字图书馆内容追踪技术研究

在当今信息爆炸的时代,单文档摘要和数字图书馆的内容保护成为了重要的研究领域。单文档摘要有助于快速获取文档核心信息,而数字图书馆的内容保护则关乎版权所有者的权益。下面将详细介绍相关的研究实验和解决方案。

单文档摘要实验
数据集

单文档摘要在 DUC 2001 和 DUC 2002 中是基础任务之一。实验使用 DUC 2001 数据进行训练,DUC 2002 数据进行测试。DUC 2002 的任务 1 旨在评估长度约 100 字或更短的通用摘要,它提供了 567 篇英语新闻文章用于单文档摘要任务。这些文章的句子已被分离并存储信息。567 篇文章来自 TREC - 9,被分为 59 个簇,同一簇内的文档相关,适合直接应用所提出的方法,并且同一簇内所有文档的摘要可以批量生成。
在预处理阶段,对于每篇文档,会移除对话句子(引号内的句子),去除每个句子中的停用词,并使用 Porter 词干提取器对剩余单词进行词干提取。

评估指标

使用 ROUGE 评估工具包进行评估,它被 DUC 用于自动摘要评估。ROUGE 通过计算候选摘要和参考摘要之间的重叠单元(如 n - 元组、词序列和词对)来衡量摘要质量。ROUGE - N 的计算公式如下:
[
ROUGE - N = \frac{\sum_{S \in {Ref \cap Sum}} Count_{match}(n - gram)}{\sum_{S \in {Ref \cap Sum}} Count(n - gram)}
]
其中,n 表示 n - 元组的长度,$Count_{match}(n - gram)$

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值