语音识别(ASR)论文优选：可商用的开源30000小时ASR英文训练语料The People‘s Speech: A Large-Scale Diverse English Speech Recogn

最新推荐文章于 2025-10-09 05:34:28 发布

原创

最新推荐文章于 2025-10-09 05:34:28 发布 · 2.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能 #深度学习 #自然语言处理 #ar

本文介绍了The People's Speech，一个大规模、多样的英语语音识别数据集，旨在推动商业用途的ASR发展。包含30000小时的可商用音频，源自各种场景，带真实背景噪声。数据集的许可证、语言分布、实体地点、场景、音频采样率、噪声分布和对齐质量均有详细展示。

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage 本文为MLCommons等在2021.11.17更新的文章，主要开源可商用的30000多小时英文语料，从而促进ASR的进步，具体的文章链接https://arxiv.org/pdf/2111.09344.pdf

简介

本文主要的工作是开源30000小时的英文ASR语料，该语料是可以商用的。Table 1列出了目前已经开源的语料，本文的People's Speech可以商用，其音频构成取自 audiobooks, movies, TV, local news, music, historical documentaries, video game replays, stock footage, twitch streams, sports commentary, business news, lectures, sermons, podcasts, old-time radio, court recordings, health, and law enforcement等等场景，而且该语料具备现实的背景噪声。