SummBank 1.0数据集介绍,官网编号LDC2003T16

SummBank 1.0(LDC2003T16)是 LDC 发布的双语(中英)单文档摘要基准数据集,源自 2001 年约翰霍普金斯大学跨语言信息检索文本摘要研讨会,核心用于单文档摘要、跨语言摘要与摘要评估任务,适配 NLP 摘要算法研发与评测。以下是详细介绍:


核心定位与背景

  • 支撑跨语言文本摘要研究,聚焦单文档摘要生成与评估,提供人工标注摘要与自动生成摘要的对照数据,适配中英文跨语言场景。
  • 由 LDC 发布,基于香港新闻平行文本语料库(LDC2000T46)构建,为跨语言信息检索框架下的文本摘要实验提供数据支撑。

数据规模与构成

项目详情
核心语料18,147 个中英双语文档对(1997-2000 年新闻),源自 LDC2000T46 香港新闻平行文本
人工摘要3 位标注者为文档编写非抽取式单文档摘要,标注含摘要内容、标注者 ID、生成时间等元数据
自动摘要包含多系统生成的基线与实验性自动摘要,适配摘要算法的自动评估与对比分析
文档主题覆盖政治、经济、文化等新闻常见领域,内容正式、规范,符合现代标准中文与英文表达习惯

技术规格

  1. 标注格式:XML,含原文文本、摘要文本、标注边界、元数据标签(来源、时间、标注者)等结构化信息,便于程序解析与处理。
  2. 数据划分:按文档发布时间与语言对划分训练集、开发集、测试集,适配模型训练、调优与评测全流程。
  3. 质量保障:人工摘要经多轮校验,标注一致性高;自动摘要由基线系统与实验系统生成,提供多样化对比基准。

核心用途

  • 单文档摘要模型训练与评测:适配抽取式 / 生成式摘要算法研发,提供人工摘要作为评估标准。
  • 跨语言摘要研究:支撑中英文跨语言摘要生成,适配跨语言信息检索场景下的摘要任务。
  • 摘要评估指标验证:用于 ROUGE 等自动评估指标的有效性验证,对比人工评估与自动评估结果。

 下载方式:

1、注册LDC账号并加入组织获取数据,官网链接:LDC官网

2、关注公众号,回复SummBank 1.0

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值