SummBank 1.0(LDC2003T16)是 LDC 发布的双语(中英)单文档摘要基准数据集,源自 2001 年约翰霍普金斯大学跨语言信息检索文本摘要研讨会,核心用于单文档摘要、跨语言摘要与摘要评估任务,适配 NLP 摘要算法研发与评测。以下是详细介绍:
核心定位与背景
- 支撑跨语言文本摘要研究,聚焦单文档摘要生成与评估,提供人工标注摘要与自动生成摘要的对照数据,适配中英文跨语言场景。
- 由 LDC 发布,基于香港新闻平行文本语料库(LDC2000T46)构建,为跨语言信息检索框架下的文本摘要实验提供数据支撑。
数据规模与构成
| 项目 | 详情 |
|---|---|
| 核心语料 | 18,147 个中英双语文档对(1997-2000 年新闻),源自 LDC2000T46 香港新闻平行文本 |
| 人工摘要 | 3 位标注者为文档编写非抽取式单文档摘要,标注含摘要内容、标注者 ID、生成时间等元数据 |
| 自动摘要 | 包含多系统生成的基线与实验性自动摘要,适配摘要算法的自动评估与对比分析 |
| 文档主题 | 覆盖政治、经济、文化等新闻常见领域,内容正式、规范,符合现代标准中文与英文表达习惯 |
技术规格
- 标注格式:XML,含原文文本、摘要文本、标注边界、元数据标签(来源、时间、标注者)等结构化信息,便于程序解析与处理。
- 数据划分:按文档发布时间与语言对划分训练集、开发集、测试集,适配模型训练、调优与评测全流程。
- 质量保障:人工摘要经多轮校验,标注一致性高;自动摘要由基线系统与实验系统生成,提供多样化对比基准。
核心用途
- 单文档摘要模型训练与评测:适配抽取式 / 生成式摘要算法研发,提供人工摘要作为评估标准。
- 跨语言摘要研究:支撑中英文跨语言摘要生成,适配跨语言信息检索场景下的摘要任务。
- 摘要评估指标验证:用于 ROUGE 等自动评估指标的有效性验证,对比人工评估与自动评估结果。
下载方式:
1、注册LDC账号并加入组织获取数据,官网链接:LDC官网
2、关注公众号,回复SummBank 1.0
NLP语料共享、LDC语料
https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg
1万+

被折叠的 条评论
为什么被折叠?



