CSR-II (WSJ1) Complete数据集介绍，官网编号LDC94S13A

原创于 2025-12-26 10:53:56 发布 · 460 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #java #算法 #数据结构

CSR-II (WSJ1) Complete 是 DARPA 资助、LDC 发布的华尔街日报（WSJ）大词汇量连续语音识别（CSR）核心语料库，编号 LDC94S13A，以 WSJ0 为基础扩充，含约 162 小时双声道语音、7.8 万训练 utterances，是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。

一、核心基础信息

项目	详情
全称	Wall Street Journal CSR-II (WSJ1) Complete Corpus
发布机构	美国 LDC，1994 年发布，DARPA 资助采集
归属体系	WSJ 语音语料库系列，是 WSJ0（LDC93S6A/B）的扩展版，两者合称 WSJ CSR 语料库
核心规模	总语音约 162 小时（双麦克风同步录制），含 7.8 万训练 utterances（约 73 小时）、8.2 千开发测试 utterances（约 8 小时）、11 组 “Hub and Spoke” 测试集（约 11 小时）
参与人员	含记者与普通成人，男女均衡，覆盖多样音质与方言，支持说话人无关（SI）训练
获取方式	LDC 授权获取（LDC94S13A 完整版，LDC94S13B 仅含森海塞尔麦克风数据）

二、数据内容与标注体系

核心数据
- 音频：双声道（森海塞尔近讲麦 + 辅助麦）高质量录音，SPHERE 格式并经 Shorten 压缩（约 2:1），含朗读语音与记者自发听写语音。
- 文本：源自《华尔街日报》新闻文本，含逐字转录与标准词表（5K/20K/64K 等），配套发音词典与句法标注，适配大词汇量任务。
- 训练范式：分为 SI-84（WSJ0 的 84 名说话人）与 SI-284（WSJ0+WSJ1 新增 200 名说话人）两种主流训练配置。
关键标注
- 文本与对齐：标注 utterance 边界、说话人、标点（含口语化 / 非口语化标点），提供语音 - 文本强制对齐标注。
- 词汇与发音：含 3 万 + 词表与发音词典，支持 5K - 64K 大词汇量建模，适配不同困惑度（80-240）设置。
- 元数据：含说话人年龄、性别、口音等信息，便于变量控制与偏差分析。

三、设计特点与实验范式

核心设计
- 场景聚焦：以新闻文本为朗读脚本，兼顾 “朗读语音”（主体）与 “自发听写语音”（少量），平衡数据规模与语音自然度。
- 变量可控：支持不同词汇量、困惑度、说话人依赖 / 无关训练，提供 40 句 / 人的语音适配材料，适配不同 ASR 研究需求。
测试范式
- 常规测试：含 1992/1993 两套测试集，适配 5K/64K 词汇量评估，以词级评估为主流。
- “Hub and Spoke” 测试：11 组差异化测试集，模拟不同信道与噪声条件，用于鲁棒性评估。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。