PhoneBook: NYNEX Isolated Words数据集介绍,官网编号LDC95S27

PhoneBook: NYNEX Isolated Words数据集是一个专注于美国英语孤立词发音的语音数据集,以下是对该数据集的详细介绍:

一、基本信息

二、数据集内容

  • 语音类型:孤立词语音数据
  • 语言:美国英语
  • 语音样本数量:核心部分包含93,667个孤立词发音,总计23小时的语音数据
  • 词汇量:包含7,979个不同的单词
  • 说话人数量:1,358名说话人,每个单词平均由11.7名说话人发音
  • 采样率:8000 Hz
  • 数据格式:8-bit mu-law数字格式
  • 数据来源:直接从T1电话线路录制

三、数据集特点

  1. 全面性:数据集旨在包含美国英语中所有音素在尽可能多的音段/重音上下文中的发音,以产生协同发音变异。
  2. 多样性:说话人具有广泛的代表性,旨在反映美国人口的多样性。
  3. 针对性:针对孤立词识别技术的重要性,特别是电话语音识别应用中的关键词识别技术。
  4. 补充数据:除了核心部分的孤立词发音外,数据集还包含5,105个自发数字发音和金额发音,以满足对自发语音效应研究的需求。

四、数据集用途

  • 语音识别技术研究:特别适用于孤立词识别技术和关键词识别技术的研究和开发。
  • 语音特征分析:可用于分析美国英语孤立词的语音特征,如音素、音段和重音等。
  • 语音数据库建设:为构建更大规模的语音数据库提供基础数据支持。

NLP语料共享、LDC语料icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值