TDT Pilot Study Corpus 是 DARPA 于 1996 年发起的话题检测与跟踪(TDT)预研基准语料,由 LDC 发布,核心用于新闻数据流的话题发现、跟踪与故事分割算法评测,奠定 TDT 任务与标注体系的基础范式。
核心基础信息
- 来源与定位:1997 年由 LDC 发布(LDC97T26),基于 1994-07-01 至 1995-06-30 的新闻数据,由 CMU、UMass Amherst 等机构参与构建;作为 TDT 首个公开基准,定义 “话题 = 事件及相关活动” 的核心概念,适配文本与语音混合数据流的主题建模。
- 数据规模与格式:总故事量约 15,863 条,路透社新闻专线与 CNN 广播新闻转录文本各占约 50%;音频为 CNN 广播新闻转录文本(对应原始 8kHz 电话语音,转录为文本),文本为 SGML 格式,按时间戳排序,支持流式处理模拟。
- 内容与场景:覆盖政治、经济、灾难、犯罪等 25 类目标事件(含可预期 / 突发事件),每条故事最多关联 1 个话题,无多话题交叉标注,适配聚类与跟踪任务。
- 标注体系:提供话题相关性标注(YES/NO/BRIEF)、故事 ID、时间戳、来源标注,配套 25 个目标事件描述文档,用于模型训练与性能评估。
NLP语料共享、LDC语料
https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg
491

被折叠的 条评论
为什么被折叠?



