- 博客(20)
- 收藏
- 关注
原创 Multiple-Translation Chinese (MTC) Part 2数据集介绍,官网编号LDC2003T17
Multiple-Translation Chinese (MTC) Part 2(LDC2003T17)是 LDC 发布的中英翻译评测基准数据集,核心用于机器翻译评估、多参考翻译质量对比与翻译模型优化,适配 NLP 翻译评测算法研发与模型调优。
2026-01-09 10:56:34
447
原创 SummBank 1.0数据集介绍,官网编号LDC2003T16
SummBank 1.0(LDC2003T16)是 LDC 发布的双语(中英)单文档摘要基准数据集,源自 2001 年约翰霍普金斯大学跨语言信息检索文本摘要研讨会,核心用于单文档摘要、跨语言摘要与摘要评估任务,适配 NLP 摘要算法研发与评测。
2026-01-09 10:53:55
134
原创 1997 HUB5 Arabic Transcripts数据集介绍,官网编号LDC2002T39
1997 HUB5 Arabic Transcripts(1997 HUB5 阿拉伯语对话转录数据集,LDC2002S22)是 DARPA 资助、LDC 发布的阿拉伯语电话对话转录语料,为 1997 年 NIST Hub - 5NE 非英语会话语音识别评测的核心数据,专注埃及阿拉伯口语(ECA),用于阿拉伯语语音识别、口语处理与模型基准评测。以下从核心定位、关键参数、标注规范、获取与应用等方面详细介绍。
2026-01-08 23:14:23
397
原创 The AQUAINT Corpus of English News Text数据集介绍,官网编号LDC2002T31
The AQUAINT Corpus of English News Text(AQUAINT 英语新闻文本语料库,LDC2002T31)是由美国国家标准与技术研究院(NIST)资助、语言数据联盟(LDC)发布的大规模英语新闻专线语料库,核心用于信息检索、文本摘要、NLP 模型预训练与评测,是 TREC 与 DUC 等权威竞赛的标准基准数据。以下从核心定位、规模与结构、标注规范、获取与应用等方面详细介绍。
2026-01-08 23:07:12
133
原创 West Point Arabic Speech数据集介绍,官网编号LDC2002S02
West Point Arabic Speech(常称 West Point Arabic Speech Corpus,LDC 目录编号 LDC2002S06)是 LDC 发布的现代标准阿拉伯语(MSA)语音识别专用语料库,由美国西点军校主导构建,核心用于阿拉伯语语音识别模型训练、声学建模与方言适配研究,是早期 MSA 语音资源的标杆。
2026-01-07 11:05:19
357
原创 Buckwalter Arabic Morphological Analyzer Version 1.0数据集介绍,官网编号LDC2002L49
Buckwalter Arabic Morphological Analyzer Version 1.0(BAMA 1.0)是 Tim Buckwalter 开发的经典阿拉伯语形态分析工具 / 数据集,核心用于无变音阿拉伯语文本的形态歧义消解、词法分析与词性标注,是阿拉伯语 NLP 早期研究的基础资源,被广泛用于阿拉伯语树库(ATB)构建与形态分析模型训练。
2026-01-07 11:02:13
599
原创 Speech in Noisy Environments (SPINE2) Transcripts Part 1、2、3,官网编号LDC2001T05、LDC2001T07、LDC2001T09
Speech in Noisy Environments (SPINE2) Transcripts 是 LDC 发布的军事噪声环境下双人对话语音转录文本集,含 3 个分卷(LDC2001T05/T07/T09),与 SPINE2 三部分音频(LDC2001S04/S06/S08)严格对齐,用于鲁棒 ASR、噪声下语音文本对齐与口语理解评测,是军事场景语音技术研发的核心标注资源Linguistic Data Consortium。
2026-01-06 15:46:02
611
1
原创 2000 NIST Speaker Recognition Evaluation数据集介绍,官网编号LDC2001S97
2000 NIST Speaker Recognition Evaluation(SRE 2000)是 NIST 主持的经典说话人识别评测数据集,核心用于文本无关说话人检测、跟踪、分割等任务的基准测试,数据源自电话信道会话语音,含 1003 位说话人、66,572 组评测 trials,推动了信道鲁棒性、多说话人场景算法的标准化评测与技术迭代。
2026-01-06 15:40:16
463
1
原创 TDT2 English Audio数据集介绍,官网编号LDC99S84
TDT2 English Audio(LDC 编号 LDC98S75)是 NIST 主导、LDC 于 1998 年发布的广播新闻语音文本数据集,核心服务话题检测与跟踪(TDT)技术评测,含 600 + 小时广播音频与 5.3 万 + 条英语新闻故事,以多源广播场景、精准话题标注与完整转录体系,成为新闻域 TDT、ASR 与内容检索的经典基准数据集。
2026-01-05 11:10:41
272
1
原创 Voice of America (VOA) Czech Broadcast News Audio数据集介绍,官网编号LDC2000S89,Transcripts官网编号LDC2000T53
Voice of America (VOA) Czech Broadcast News Audio 是 LDC 发布的捷克语广播新闻音频与文本数据集,核心为 1999 年美国之音(VOA)捷克语新闻广播,含音频、文本与词汇表,是捷克语 ASR 与语音处理的经典资源,对应 LDC 双编号 LDC2000S89(音频)与 LDC2000T53(文本 + 词汇),2000 年发布。
2026-01-05 11:09:43
734
1
原创 Tactical Speaker Identification Speech Corpus数据集介绍,官网编号LDC99S83
Tactical Speaker Identification Speech Corpus(TSID,常称 Tactical Speaker Identification Database)是 MIT 林肯实验室为战术场景说话人识别研发的专用语音数据集,1990 年代初发布、LDC 可获取,基于野外战术无线电通信场景构建,含半自发语音与多信道 / 多损伤数据,适配低码率编码、信道畸变等复杂条件下的说话人识别算法评测,推动了战术通信域说话人识别技术的场景化与标准化。
2026-01-04 15:00:07
711
1
原创 TDT Pilot Study Corpus数据集介绍,官网编号LDC98T25
TDT Pilot Study Corpus 是 DARPA 于 1996 年发起的话题检测与跟踪(TDT)预研基准语料,由 LDC 发布,核心用于新闻数据流的话题发现、跟踪与故事分割算法评测,奠定 TDT 任务与标注体系的基础范式。
2026-01-04 14:57:40
371
1
原创 Voicemail Corpus Part I数据集介绍,官网编号LDC98S77
Voicemail Corpus Part I(又称 IBM Voicemail Corpus Part I)是由 IBM 采集、LDC(Linguistic Data Consortium)发布的英语语音邮件专用基准数据集,核心用于语音邮件的 ASR、语音摘要与口语理解建模,以真实语音邮件的单声道独白为特色,覆盖自然口语中的停顿、修正、填充词等非流利特征。
2025-12-31 11:08:37
244
1
原创 1998 Speaker Recognition Benchmark数据集介绍,官网编号LDC98S76
1998 Speaker Recognition Benchmark 通常指 NIST 1998 说话人识别评测(SRE 1998)基准数据集,由美国国家标准与技术研究院(NIST)主导、依托 Switchboard - 2(SWBD - 2)电话会话语料构建,核心用于文本无关的说话人验证与识别算法标准化评测,是该领域奠定现代评估体系与核心指标的里程碑资源。
2025-12-31 11:07:08
323
1
原创 1996 Speaker Recognition Benchmark数据集介绍,官网编号LDC96S61
1996 年的说话人识别基准数据集,核心是(NIST Speaker Recognition Evaluation 1996),它是 NIST 首次举办的说话人识别评测基准,为后续数十年的声纹评测奠定了标准范式,数据核心源自 Switchboard-1 对话电话语音语料库,由 LDC 提供与管理。
2025-12-30 11:11:14
176
1
原创 RM Isolated and Spelled Word Data数据集介绍,官网编号LDC96S39
RM Isolated and Spelled Word Data(LDC 目录号。
2025-12-30 11:04:50
378
1
原创 BRAMSHILL数据集介绍,官网编号LDC94S20
BRAMSHILL(LDC94S20)是由美国语言数据联盟(LDC)发布、面向法庭语音识别与说话人验证的经典英语电话语音数据集,1994 年公开,核心用于开发鲁棒的电话信道说话人识别算法,适配司法与安全场景的语音证据核验需求。
2025-12-29 09:54:10
237
1
原创 OGI Spelled and Spoken Word数据集介绍,官网编号LDC94S18
OGI Spelled and Spoken Word(全称 Oregon Graduate Institute Spelled and Spoken Word Telephone Corpus)是美国俄勒冈研究生院(OGI)口语理解中心(CSLU)构建的英语电话语音数据集,核心用于姓名拼写识别、口语姓名识别等电话语音交互场景的算法研发与测试,数据源于真实公共电话线路采集。
2025-12-29 09:42:48
235
1
原创 SPIDRE数据集介绍,官网编号LDC94S15
它是耶鲁大学 LILY 实验室发布的复杂跨域语义解析与 Text‑to‑SQL 基准数据集(EMNLP 2018),含 10,181 个自然语言问题、5,693 条独特复杂 SQL 查询、200 个多表数据库(覆盖 138 个领域),核心用于评估模型跨域泛化与复杂 SQL 生成能力,是 Text‑to‑SQL 领域的标杆。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开介绍。
2025-12-26 11:05:16
315
1
原创 CSR-II (WSJ1) Complete数据集介绍,官网编号LDC94S13A
CSR-II (WSJ1) Complete 是 DARPA 资助、LDC 发布的华尔街日报(WSJ)大词汇量连续语音识别(CSR)核心语料库,编号 LDC94S13A,以 WSJ0 为基础扩充,含约 162 小时双声道语音、7.8 万训练 utterances,是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。
2025-12-26 10:53:56
460
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅