OGI Spelled and Spoken Word数据集介绍，官网编号LDC94S18

最新推荐文章于 2026-01-07 13:36:22 发布

原创最新推荐文章于 2026-01-07 13:36:22 发布 · 235 阅读

CC 4.0 BY-SA版权

文章标签：

OGI Spelled and Spoken Word（全称 Oregon Graduate Institute Spelled and Spoken Word Telephone Corpus）是美国俄勒冈研究生院（OGI）口语理解中心（CSLU）构建的英语电话语音数据集，核心用于姓名拼写识别、口语姓名识别等电话语音交互场景的算法研发与测试，数据源于真实公共电话线路采集。以下是其核心信息与关键细节：

一、基础信息

项目	详情
创建机构	OGI 的 CSLU（Center for Spoken Language Understanding）
采集方式	公共电话线路，自动语音提示引导用户完成语音录制，采样率 8kHz，符合电话语音标准
核心内容	用户口述并拼写姓名（含带 / 无停顿两种方式）、朗读字母表、回答 yes/no 问题、说明家乡与来电城市等
规模	约 4000 通有效来电，涵盖 2500 个姓氏（1902 个唯一）、1495 个名字（651 个唯一）、886 个成长城市、423 个来电城市；拼写与字母表相关数据含训练集 4132 条字符串（39687 个字母）、开发测试集 2063 条（15612 个字母）等
发布时间	1990 年代中期，1996 年已有公开研究使用该数据集拼写部分进行实验验证

二、数据结构与标注

核心数据类型
- 拼写数据：姓氏拼写（SLN 无停顿、SLP 有停顿）、名字拼写（SFP 有停顿）、字母表朗读（ALP），覆盖字母识别核心场景。
- 口语数据：姓名、城市名称、yes/no 回答等孤立词与短语，支持口语 - 拼写关联任务研究。
标注体系
- 文本标注：单词级正字法转录，标注内容包含拼写序列、口语内容、回答结果等。
- 语音标注：部分数据含时间对齐的宽式音素标签，支持语音识别与音素建模。
- 元数据：记录说话人性别、年龄、线路质量等，辅助模型鲁棒性分析。
数据集划分官方提供训练集、开发测试集、测试集（如 Test1 对应 SLN、Test2 对应 SLP），适配模型训练、调优与评估全流程。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg