LinguisticData-优快云博客

原创 Multiple-Translation Chinese (MTC) Part 2数据集介绍，官网编号LDC2003T17

Multiple-Translation Chinese (MTC) Part 2（LDC2003T17）是 LDC 发布的中英翻译评测基准数据集，核心用于机器翻译评估、多参考翻译质量对比与翻译模型优化，适配 NLP 翻译评测算法研发与模型调优。

2026-01-09 10:56:34 447

原创 SummBank 1.0数据集介绍，官网编号LDC2003T16

SummBank 1.0（LDC2003T16）是 LDC 发布的双语（中英）单文档摘要基准数据集，源自 2001 年约翰霍普金斯大学跨语言信息检索文本摘要研讨会，核心用于单文档摘要、跨语言摘要与摘要评估任务，适配 NLP 摘要算法研发与评测。

2026-01-09 10:53:55 134

原创 1997 HUB5 Arabic Transcripts数据集介绍，官网编号LDC2002T39

1997 HUB5 Arabic Transcripts（1997 HUB5 阿拉伯语对话转录数据集，LDC2002S22）是 DARPA 资助、LDC 发布的阿拉伯语电话对话转录语料，为 1997 年 NIST Hub - 5NE 非英语会话语音识别评测的核心数据，专注埃及阿拉伯口语（ECA），用于阿拉伯语语音识别、口语处理与模型基准评测。以下从核心定位、关键参数、标注规范、获取与应用等方面详细介绍。

2026-01-08 23:14:23 397

原创 The AQUAINT Corpus of English News Text数据集介绍，官网编号LDC2002T31

The AQUAINT Corpus of English News Text（AQUAINT 英语新闻文本语料库，LDC2002T31）是由美国国家标准与技术研究院（NIST）资助、语言数据联盟（LDC）发布的大规模英语新闻专线语料库，核心用于信息检索、文本摘要、NLP 模型预训练与评测，是 TREC 与 DUC 等权威竞赛的标准基准数据。以下从核心定位、规模与结构、标注规范、获取与应用等方面详细介绍。

2026-01-08 23:07:12 133

原创 West Point Arabic Speech数据集介绍，官网编号LDC2002S02

West Point Arabic Speech（常称 West Point Arabic Speech Corpus，LDC 目录编号 LDC2002S06）是 LDC 发布的现代标准阿拉伯语（MSA）语音识别专用语料库，由美国西点军校主导构建，核心用于阿拉伯语语音识别模型训练、声学建模与方言适配研究，是早期 MSA 语音资源的标杆。

2026-01-07 11:05:19 357

原创 Buckwalter Arabic Morphological Analyzer Version 1.0数据集介绍，官网编号LDC2002L49

Buckwalter Arabic Morphological Analyzer Version 1.0（BAMA 1.0）是 Tim Buckwalter 开发的经典阿拉伯语形态分析工具 / 数据集，核心用于无变音阿拉伯语文本的形态歧义消解、词法分析与词性标注，是阿拉伯语 NLP 早期研究的基础资源，被广泛用于阿拉伯语树库（ATB）构建与形态分析模型训练。

2026-01-07 11:02:13 599

原创 Speech in Noisy Environments (SPINE2) Transcripts Part 1、2、3，官网编号LDC2001T05、LDC2001T07、LDC2001T09

Speech in Noisy Environments (SPINE2) Transcripts 是 LDC 发布的军事噪声环境下双人对话语音转录文本集，含 3 个分卷（LDC2001T05/T07/T09），与 SPINE2 三部分音频（LDC2001S04/S06/S08）严格对齐，用于鲁棒 ASR、噪声下语音文本对齐与口语理解评测，是军事场景语音技术研发的核心标注资源Linguistic Data Consortium。

2026-01-06 15:46:02 611 1

原创 2000 NIST Speaker Recognition Evaluation数据集介绍，官网编号LDC2001S97

2000 NIST Speaker Recognition Evaluation（SRE 2000）是 NIST 主持的经典说话人识别评测数据集，核心用于文本无关说话人检测、跟踪、分割等任务的基准测试，数据源自电话信道会话语音，含 1003 位说话人、66,572 组评测 trials，推动了信道鲁棒性、多说话人场景算法的标准化评测与技术迭代。

2026-01-06 15:40:16 463 1

原创 TDT2 English Audio数据集介绍，官网编号LDC99S84

TDT2 English Audio（LDC 编号 LDC98S75）是 NIST 主导、LDC 于 1998 年发布的广播新闻语音文本数据集，核心服务话题检测与跟踪（TDT）技术评测，含 600 + 小时广播音频与 5.3 万 + 条英语新闻故事，以多源广播场景、精准话题标注与完整转录体系，成为新闻域 TDT、ASR 与内容检索的经典基准数据集。

2026-01-05 11:10:41 272 1

原创 Voice of America (VOA) Czech Broadcast News Audio数据集介绍，官网编号LDC2000S89，Transcripts官网编号LDC2000T53

Voice of America (VOA) Czech Broadcast News Audio 是 LDC 发布的捷克语广播新闻音频与文本数据集，核心为 1999 年美国之音（VOA）捷克语新闻广播，含音频、文本与词汇表，是捷克语 ASR 与语音处理的经典资源，对应 LDC 双编号 LDC2000S89（音频）与 LDC2000T53（文本 + 词汇），2000 年发布。

2026-01-05 11:09:43 734 1

原创 Tactical Speaker Identification Speech Corpus数据集介绍，官网编号LDC99S83

Tactical Speaker Identification Speech Corpus（TSID，常称 Tactical Speaker Identification Database）是 MIT 林肯实验室为战术场景说话人识别研发的专用语音数据集，1990 年代初发布、LDC 可获取，基于野外战术无线电通信场景构建，含半自发语音与多信道 / 多损伤数据，适配低码率编码、信道畸变等复杂条件下的说话人识别算法评测，推动了战术通信域说话人识别技术的场景化与标准化。

2026-01-04 15:00:07 711 1

原创 TDT Pilot Study Corpus数据集介绍，官网编号LDC98T25

TDT Pilot Study Corpus 是 DARPA 于 1996 年发起的话题检测与跟踪（TDT）预研基准语料，由 LDC 发布，核心用于新闻数据流的话题发现、跟踪与故事分割算法评测，奠定 TDT 任务与标注体系的基础范式。

2026-01-04 14:57:40 371 1

原创 Voicemail Corpus Part I数据集介绍，官网编号LDC98S77

Voicemail Corpus Part I（又称 IBM Voicemail Corpus Part I）是由 IBM 采集、LDC（Linguistic Data Consortium）发布的英语语音邮件专用基准数据集，核心用于语音邮件的 ASR、语音摘要与口语理解建模，以真实语音邮件的单声道独白为特色，覆盖自然口语中的停顿、修正、填充词等非流利特征。

2025-12-31 11:08:37 244 1

原创 1998 Speaker Recognition Benchmark数据集介绍，官网编号LDC98S76

1998 Speaker Recognition Benchmark 通常指 NIST 1998 说话人识别评测（SRE 1998）基准数据集，由美国国家标准与技术研究院（NIST）主导、依托 Switchboard - 2（SWBD - 2）电话会话语料构建，核心用于文本无关的说话人验证与识别算法标准化评测，是该领域奠定现代评估体系与核心指标的里程碑资源。

2025-12-31 11:07:08 323 1

原创 1996 Speaker Recognition Benchmark数据集介绍，官网编号LDC96S61

1996 年的说话人识别基准数据集，核心是（NIST Speaker Recognition Evaluation 1996），它是 NIST 首次举办的说话人识别评测基准，为后续数十年的声纹评测奠定了标准范式，数据核心源自 Switchboard-1 对话电话语音语料库，由 LDC 提供与管理。

2025-12-30 11:11:14 176 1

原创 RM Isolated and Spelled Word Data数据集介绍，官网编号LDC96S39

RM Isolated and Spelled Word Data（LDC 目录号。

2025-12-30 11:04:50 378 1

原创 BRAMSHILL数据集介绍，官网编号LDC94S20

BRAMSHILL（LDC94S20）是由美国语言数据联盟（LDC）发布、面向法庭语音识别与说话人验证的经典英语电话语音数据集，1994 年公开，核心用于开发鲁棒的电话信道说话人识别算法，适配司法与安全场景的语音证据核验需求。

2025-12-29 09:54:10 237 1

原创 OGI Spelled and Spoken Word数据集介绍，官网编号LDC94S18

OGI Spelled and Spoken Word（全称 Oregon Graduate Institute Spelled and Spoken Word Telephone Corpus）是美国俄勒冈研究生院（OGI）口语理解中心（CSLU）构建的英语电话语音数据集，核心用于姓名拼写识别、口语姓名识别等电话语音交互场景的算法研发与测试，数据源于真实公共电话线路采集。

2025-12-29 09:42:48 235 1

原创 SPIDRE数据集介绍，官网编号LDC94S15

它是耶鲁大学 LILY 实验室发布的复杂跨域语义解析与 Text‑to‑SQL 基准数据集（EMNLP 2018），含 10,181 个自然语言问题、5,693 条独特复杂 SQL 查询、200 个多表数据库（覆盖 138 个领域），核心用于评估模型跨域泛化与复杂 SQL 生成能力，是 Text‑to‑SQL 领域的标杆。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开介绍。

2025-12-26 11:05:16 315 1

原创 CSR-II (WSJ1) Complete数据集介绍，官网编号LDC94S13A

CSR-II (WSJ1) Complete 是 DARPA 资助、LDC 发布的华尔街日报（WSJ）大词汇量连续语音识别（CSR）核心语料库，编号 LDC94S13A，以 WSJ0 为基础扩充，含约 162 小时双声道语音、7.8 万训练 utterances，是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。

2025-12-26 10:53:56 460 1

LinguisticData的博客