BRAMSHILL(LDC94S20)是由美国语言数据联盟(LDC)发布、面向法庭语音识别与说话人验证的经典英语电话语音数据集,1994 年公开,核心用于开发鲁棒的电话信道说话人识别算法,适配司法与安全场景的语音证据核验需求。以下是其核心信息与关键细节:
一、基础信息
| 项目 | 详情 |
|---|---|
| 发布机构 | 美国语言数据联盟(LDC),编号 LDC94S20 |
| 采集背景 | 英国 BRAMSHILL 警察学院主导,用于执法场景电话语音取证技术研发 |
| 采集方式 | 公共电话线路,采样率 8kHz、16 位单声道,符合电话语音标准 |
| 规模 | 约 220 名说话人,每人录制多通电话,含会话语音、朗读语音、数字串与字母串发音;总时长约 100 小时,覆盖不同信道噪声与设备差异 |
| 发布时间 | 1994 年,为早期法庭语音识别与说话人验证领域的核心基准数据集之一 |
二、数据结构与标注
- 核心数据类型
- 会话语音:自然对话片段,含不同语速、情绪与口音的口语交互,适配真实场景说话人识别。
- 朗读语音:脚本化数字串、字母串、短语朗读,用于信道鲁棒性与特征提取算法测试。
- 辅助数据:含信道噪声样本、说话人元数据(性别、口音等),支持多变量干扰分析。
- 标注体系
- 文本标注:单词级正字法转录,标注内容含会话文本、朗读内容、数字 / 字母序列等。
- 语音标注:含时间对齐的音素级标注与说话人标签,支持说话人分割、特征对齐与建模。
- 元数据:记录说话人 ID、性别、电话设备类型、线路噪声等级等,辅助模型泛化性研究。
- 数据集划分官方提供训练集、开发集、测试集,按说话人独立划分,避免数据泄露,适配模型训练、调优与无偏评估全流程。
NLP语料共享、LDC语料
https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg
467

被折叠的 条评论
为什么被折叠?



