Voicemail Corpus Part I数据集介绍,官网编号LDC98S77

Voicemail Corpus Part I(又称 IBM Voicemail Corpus Part I)是由 IBM 采集、LDC(Linguistic Data Consortium)发布的英语语音邮件专用基准数据集,核心用于语音邮件的 ASR、语音摘要与口语理解建模,以真实语音邮件的单声道独白为特色,覆盖自然口语中的停顿、修正、填充词等非流利特征。


核心基础信息

  1. 来源与定位:由 IBM 在美国多地员工志愿者采集,LDC 编号 LDC98S75,1998 年发布;专为语音邮件场景设计,填补朗读 / 对话语料与真实语音邮件的差异缺口,适配 ASR 与语音摘要任务。
  2. 数据规模与格式:总时长约 14.6 小时,含 1801 条训练消息、42 条开发测试消息,额外含 IBM 提供的 50 条独立测试消息;音频为 8kHz/16bit 单声道 SPHERE 格式,符合电话语音标准;文本标注含逐词转录,词汇量约 10K,OOV 率约 1%。
  3. 语音内容与场景:均为自发语音邮件独白,涵盖个人通知、商务留言、信息查询等;含丰富口语现象(如 um/ah 填充词、自我修正、语速变化、背景噪声),无实时反馈导致的提问与指令句式,贴近真实语音邮件交互。
  4. 标注体系:提供说话人 ID、消息时间戳、完整文本转录,部分版本含词性标注与词级时间对齐,支持模型训练与 WER 等指标评估。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值