PhoneBook: NYNEX Isolated Words数据集是一个专注于美国英语孤立词发音的语音数据集,以下是对该数据集的详细介绍:
一、基本信息
- 名称:PhoneBook: NYNEX Isolated Words
- 作者:John F. Pitrelli, Cynthia Fong
- LDC编号:LDC95S27
- ISBN:1-58563-055-1
- ISLRN:574-104-816-534-9
- DOI:PhoneBook: NYNEX Isolated Words - Linguistic Data Consortium
- 发布时间:1995年(由Linguistic Data Consortium发布)
二、数据集内容
- 语音类型:孤立词语音数据
- 语言:美国英语
- 语音样本数量:核心部分包含93,667个孤立词发音,总计23小时的语音数据
- 词汇量:包含7,979个不同的单词
- 说话人数量:1,358名说话人,每个单词平均由11.7名说话人发音
- 采样率:8000 Hz
- 数据格式:8-bit mu-law数字格式
- 数据来源:直接从T1电话线路录制
三、数据集特点
- 全面性:数据集旨在包含美国英语中所有音素在尽可能多的音段/重音上下文中的发音,以产生协同发音变异。
- 多样性:说话人具有广泛的代表性,旨在反映美国人口的多样性。
- 针对性:针对孤立词识别技术的重要性,特别是电话语音识别应用中的关键词识别技术。
- 补充数据:除了核心部分的孤立词发音外,数据集还包含5,105个自发数字发音和金额发音,以满足对自发语音效应研究的需求。
四、数据集用途
- 语音识别技术研究:特别适用于孤立词识别技术和关键词识别技术的研究和开发。
- 语音特征分析:可用于分析美国英语孤立词的语音特征,如音素、音段和重音等。
- 语音数据库建设:为构建更大规模的语音数据库提供基础数据支持。
NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg