声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage 本文为MLCommons等在2021.11.17更新的文章,主要开源可商用的30000多小时英文语料,从而促进ASR的进步,具体的文章链接https://arxiv.org/pdf/2111.09344.pdf
简介
本文主要的工作是开源30000小时的英文ASR语料,该语料是可以商用的。Table 1列出了目前已经开源的语料,本文的People's Speech可以商用,其音频构成取自 audiobooks, movies, TV, local news, music, historical documentaries, video game replays, stock footage, twitch streams, sports commentary, business news, lectures, sermons, podcasts, old-time radio, court recordings, health, and law enforcement等等场景,而且该语料具备现实的背景噪声。

本文介绍了The People's Speech,一个大规模、多样的英语语音识别数据集,旨在推动商业用途的ASR发展。包含30000小时的可商用音频,源自各种场景,带真实背景噪声。数据集的许可证、语言分布、实体地点、场景、音频采样率、噪声分布和对齐质量均有详细展示。
最低0.47元/天 解锁文章
3802

被折叠的 条评论
为什么被折叠?



