OGI Spelled and Spoken Word数据集介绍,官网编号LDC94S18

OGI Spelled and Spoken Word(全称 Oregon Graduate Institute Spelled and Spoken Word Telephone Corpus)是美国俄勒冈研究生院(OGI)口语理解中心(CSLU)构建的英语电话语音数据集,核心用于姓名拼写识别、口语姓名识别等电话语音交互场景的算法研发与测试,数据源于真实公共电话线路采集。以下是其核心信息与关键细节:


一、基础信息

项目详情
创建机构OGI 的 CSLU(Center for Spoken Language Understanding)
采集方式公共电话线路,自动语音提示引导用户完成语音录制,采样率 8kHz,符合电话语音标准
核心内容用户口述并拼写姓名(含带 / 无停顿两种方式)、朗读字母表、回答 yes/no 问题、说明家乡与来电城市等
规模约 4000 通有效来电,涵盖 2500 个姓氏(1902 个唯一)、1495 个名字(651 个唯一)、886 个成长城市、423 个来电城市;拼写与字母表相关数据含训练集 4132 条字符串(39687 个字母)、开发测试集 2063 条(15612 个字母)等
发布时间1990 年代中期,1996 年已有公开研究使用该数据集拼写部分进行实验验证

二、数据结构与标注

  1. 核心数据类型
    • 拼写数据:姓氏拼写(SLN 无停顿、SLP 有停顿)、名字拼写(SFP 有停顿)、字母表朗读(ALP),覆盖字母识别核心场景。
    • 口语数据:姓名、城市名称、yes/no 回答等孤立词与短语,支持口语 - 拼写关联任务研究。
  2. 标注体系
    • 文本标注:单词级正字法转录,标注内容包含拼写序列、口语内容、回答结果等。
    • 语音标注:部分数据含时间对齐的宽式音素标签,支持语音识别与音素建模。
    • 元数据:记录说话人性别、年龄、线路质量等,辅助模型鲁棒性分析。
  3. 数据集划分官方提供训练集、开发测试集、测试集(如 Test1 对应 SLN、Test2 对应 SLP),适配模型训练、调优与评估全流程。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值