CSR-II (WSJ1) Complete 是 DARPA 资助、LDC 发布的华尔街日报(WSJ)大词汇量连续语音识别(CSR)核心语料库,编号 LDC94S13A,以 WSJ0 为基础扩充,含约 162 小时双声道语音、7.8 万训练 utterances,是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。
一、核心基础信息
| 项目 | 详情 |
|---|---|
| 全称 | Wall Street Journal CSR-II (WSJ1) Complete Corpus |
| 发布机构 | 美国 LDC,1994 年发布,DARPA 资助采集 |
| 归属体系 | WSJ 语音语料库系列,是 WSJ0(LDC93S6A/B)的扩展版,两者合称 WSJ CSR 语料库 |
| 核心规模 | 总语音约 162 小时(双麦克风同步录制),含 7.8 万训练 utterances(约 73 小时)、8.2 千开发测试 utterances(约 8 小时)、11 组 “Hub and Spoke” 测试集(约 11 小时) |
| 参与人员 | 含记者与普通成人,男女均衡,覆盖多样音质与方言,支持说话人无关(SI)训练 |
| 获取方式 | LDC 授权获取(LDC94S13A 完整版,LDC94S13B 仅含森海塞尔麦克风数据) |
二、数据内容与标注体系
- 核心数据
- 音频:双声道(森海塞尔近讲麦 + 辅助麦)高质量录音,SPHERE 格式并经 Shorten 压缩(约 2:1),含朗读语音与记者自发听写语音。
- 文本:源自《华尔街日报》新闻文本,含逐字转录与标准词表(5K/20K/64K 等),配套发音词典与句法标注,适配大词汇量任务。
- 训练范式:分为 SI-84(WSJ0 的 84 名说话人)与 SI-284(WSJ0+WSJ1 新增 200 名说话人)两种主流训练配置。
- 关键标注
- 文本与对齐:标注 utterance 边界、说话人、标点(含口语化 / 非口语化标点),提供语音 - 文本强制对齐标注。
- 词汇与发音:含 3 万 + 词表与发音词典,支持 5K - 64K 大词汇量建模,适配不同困惑度(80-240)设置。
- 元数据:含说话人年龄、性别、口音等信息,便于变量控制与偏差分析。
三、设计特点与实验范式
- 核心设计
- 场景聚焦:以新闻文本为朗读脚本,兼顾 “朗读语音”(主体)与 “自发听写语音”(少量),平衡数据规模与语音自然度。
- 变量可控:支持不同词汇量、困惑度、说话人依赖 / 无关训练,提供 40 句 / 人的语音适配材料,适配不同 ASR 研究需求。
- 测试范式
- 常规测试:含 1992/1993 两套测试集,适配 5K/64K 词汇量评估,以词级评估为主流。
- “Hub and Spoke” 测试:11 组差异化测试集,模拟不同信道与噪声条件,用于鲁棒性评估。
NLP语料共享、LDC语料
https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

被折叠的 条评论
为什么被折叠?



