OGI Spelled and Spoken Word(全称 Oregon Graduate Institute Spelled and Spoken Word Telephone Corpus)是美国俄勒冈研究生院(OGI)口语理解中心(CSLU)构建的英语电话语音数据集,核心用于姓名拼写识别、口语姓名识别等电话语音交互场景的算法研发与测试,数据源于真实公共电话线路采集。以下是其核心信息与关键细节:
一、基础信息
| 项目 | 详情 |
|---|---|
| 创建机构 | OGI 的 CSLU(Center for Spoken Language Understanding) |
| 采集方式 | 公共电话线路,自动语音提示引导用户完成语音录制,采样率 8kHz,符合电话语音标准 |
| 核心内容 | 用户口述并拼写姓名(含带 / 无停顿两种方式)、朗读字母表、回答 yes/no 问题、说明家乡与来电城市等 |
| 规模 | 约 4000 通有效来电,涵盖 2500 个姓氏(1902 个唯一)、1495 个名字(651 个唯一)、886 个成长城市、423 个来电城市;拼写与字母表相关数据含训练集 4132 条字符串(39687 个字母)、开发测试集 2063 条(15612 个字母)等 |
| 发布时间 | 1990 年代中期,1996 年已有公开研究使用该数据集拼写部分进行实验验证 |
二、数据结构与标注
- 核心数据类型
- 拼写数据:姓氏拼写(SLN 无停顿、SLP 有停顿)、名字拼写(SFP 有停顿)、字母表朗读(ALP),覆盖字母识别核心场景。
- 口语数据:姓名、城市名称、yes/no 回答等孤立词与短语,支持口语 - 拼写关联任务研究。
- 标注体系
- 文本标注:单词级正字法转录,标注内容包含拼写序列、口语内容、回答结果等。
- 语音标注:部分数据含时间对齐的宽式音素标签,支持语音识别与音素建模。
- 元数据:记录说话人性别、年龄、线路质量等,辅助模型鲁棒性分析。
- 数据集划分官方提供训练集、开发测试集、测试集(如 Test1 对应 SLN、Test2 对应 SLP),适配模型训练、调优与评估全流程。
NLP语料共享、LDC语料
https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg
433

被折叠的 条评论
为什么被折叠?



