CSR-II (WSJ1) Complete数据集介绍,官网编号LDC94S13A

CSR-II (WSJ1) Complete 是 DARPA 资助、LDC 发布的华尔街日报(WSJ)大词汇量连续语音识别(CSR)核心语料库,编号 LDC94S13A,以 WSJ0 为基础扩充,含约 162 小时双声道语音、7.8 万训练 utterances,是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。


一、核心基础信息

项目详情
全称Wall Street Journal CSR-II (WSJ1) Complete Corpus
发布机构美国 LDC,1994 年发布,DARPA 资助采集
归属体系WSJ 语音语料库系列,是 WSJ0(LDC93S6A/B)的扩展版,两者合称 WSJ CSR 语料库
核心规模总语音约 162 小时(双麦克风同步录制),含 7.8 万训练 utterances(约 73 小时)、8.2 千开发测试 utterances(约 8 小时)、11 组 “Hub and Spoke” 测试集(约 11 小时)
参与人员含记者与普通成人,男女均衡,覆盖多样音质与方言,支持说话人无关(SI)训练
获取方式LDC 授权获取(LDC94S13A 完整版,LDC94S13B 仅含森海塞尔麦克风数据)

二、数据内容与标注体系

  1. 核心数据
    • 音频:双声道(森海塞尔近讲麦 + 辅助麦)高质量录音,SPHERE 格式并经 Shorten 压缩(约 2:1),含朗读语音与记者自发听写语音。
    • 文本:源自《华尔街日报》新闻文本,含逐字转录与标准词表(5K/20K/64K 等),配套发音词典与句法标注,适配大词汇量任务。
    • 训练范式:分为 SI-84(WSJ0 的 84 名说话人)与 SI-284(WSJ0+WSJ1 新增 200 名说话人)两种主流训练配置。
  2. 关键标注
    • 文本与对齐:标注 utterance 边界、说话人、标点(含口语化 / 非口语化标点),提供语音 - 文本强制对齐标注。
    • 词汇与发音:含 3 万 + 词表与发音词典,支持 5K - 64K 大词汇量建模,适配不同困惑度(80-240)设置。
    • 元数据:含说话人年龄、性别、口音等信息,便于变量控制与偏差分析。

三、设计特点与实验范式

  1. 核心设计
    • 场景聚焦:以新闻文本为朗读脚本,兼顾 “朗读语音”(主体)与 “自发听写语音”(少量),平衡数据规模与语音自然度。
    • 变量可控:支持不同词汇量、困惑度、说话人依赖 / 无关训练,提供 40 句 / 人的语音适配材料,适配不同 ASR 研究需求。
  2. 测试范式
    • 常规测试:含 1992/1993 两套测试集,适配 5K/64K 词汇量评估,以词级评估为主流。
    • “Hub and Spoke” 测试:11 组差异化测试集,模拟不同信道与噪声条件,用于鲁棒性评估。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值