SummBank 1.0数据集介绍，官网编号LDC2003T16

最新推荐文章于 2026-01-09 16:00:52 发布

原创最新推荐文章于 2026-01-09 16:00:52 发布 · 179 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #语音识别 #python #数据结构 #算法

SummBank 1.0（LDC2003T16）是 LDC 发布的双语（中英）单文档摘要基准数据集，源自 2001 年约翰霍普金斯大学跨语言信息检索文本摘要研讨会，核心用于单文档摘要、跨语言摘要与摘要评估任务，适配 NLP 摘要算法研发与评测。以下是详细介绍：

核心定位与背景

支撑跨语言文本摘要研究，聚焦单文档摘要生成与评估，提供人工标注摘要与自动生成摘要的对照数据，适配中英文跨语言场景。
由 LDC 发布，基于香港新闻平行文本语料库（LDC2000T46）构建，为跨语言信息检索框架下的文本摘要实验提供数据支撑。

数据规模与构成

项目	详情
核心语料	18,147 个中英双语文档对（1997-2000 年新闻），源自 LDC2000T46 香港新闻平行文本
人工摘要	3 位标注者为文档编写非抽取式单文档摘要，标注含摘要内容、标注者 ID、生成时间等元数据
自动摘要	包含多系统生成的基线与实验性自动摘要，适配摘要算法的自动评估与对比分析
文档主题	覆盖政治、经济、文化等新闻常见领域，内容正式、规范，符合现代标准中文与英文表达习惯

技术规格

标注格式：XML，含原文文本、摘要文本、标注边界、元数据标签（来源、时间、标注者）等结构化信息，便于程序解析与处理。
数据划分：按文档发布时间与语言对划分训练集、开发集、测试集，适配模型训练、调优与评测全流程。
质量保障：人工摘要经多轮校验，标注一致性高；自动摘要由基线系统与实验系统生成，提供多样化对比基准。

核心用途

单文档摘要模型训练与评测：适配抽取式 / 生成式摘要算法研发，提供人工摘要作为评估标准。
跨语言摘要研究：支撑中英文跨语言摘要生成，适配跨语言信息检索场景下的摘要任务。
摘要评估指标验证：用于 ROUGE 等自动评估指标的有效性验证，对比人工评估与自动评估结果。

下载方式：

1、注册LDC账号并加入组织获取数据，官网链接：LDC官网

2、关注公众号，回复SummBank 1.0

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。