BRAMSHILL数据集介绍,官网编号LDC94S20

BRAMSHILL(LDC94S20)是由美国语言数据联盟(LDC)发布、面向法庭语音识别与说话人验证的经典英语电话语音数据集,1994 年公开,核心用于开发鲁棒的电话信道说话人识别算法,适配司法与安全场景的语音证据核验需求。以下是其核心信息与关键细节:


一、基础信息

项目详情
发布机构美国语言数据联盟(LDC),编号 LDC94S20
采集背景英国 BRAMSHILL 警察学院主导,用于执法场景电话语音取证技术研发
采集方式公共电话线路,采样率 8kHz、16 位单声道,符合电话语音标准
规模约 220 名说话人,每人录制多通电话,含会话语音、朗读语音、数字串与字母串发音;总时长约 100 小时,覆盖不同信道噪声与设备差异
发布时间1994 年,为早期法庭语音识别与说话人验证领域的核心基准数据集之一

二、数据结构与标注

  1. 核心数据类型
    • 会话语音:自然对话片段,含不同语速、情绪与口音的口语交互,适配真实场景说话人识别。
    • 朗读语音:脚本化数字串、字母串、短语朗读,用于信道鲁棒性与特征提取算法测试。
    • 辅助数据:含信道噪声样本、说话人元数据(性别、口音等),支持多变量干扰分析。
  2. 标注体系
    • 文本标注:单词级正字法转录,标注内容含会话文本、朗读内容、数字 / 字母序列等。
    • 语音标注:含时间对齐的音素级标注与说话人标签,支持说话人分割、特征对齐与建模。
    • 元数据:记录说话人 ID、性别、电话设备类型、线路噪声等级等,辅助模型泛化性研究。
  3. 数据集划分官方提供训练集、开发集、测试集,按说话人独立划分,避免数据泄露,适配模型训练、调优与无偏评估全流程。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值