一.数据集:
比较常用的:aishell WenetSpeech THCHS30 libriSpeech
中文数据集有这些dbase aidatatang aishell magicdata primewords stcmds thchs
二.数据集特点总结:
1.Mozilla Common Voice:
开发时间早,宣称自己有最大的人类数据库,献者可以选择提供诸如他们的年龄、性别和口音等统计元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法,
下载地址:https://voice.mozilla.org/data
参考:点击可转到优快云此内容
2.翻译和口语音频的大型数据库Tatoeba
语言学习的句子、翻译和口语音频的大型数据库,用户无须注册便可以搜索任何单词的例句,注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论(没有语言限制)
3.VOICES Dataset
除了基本的声音之外还有一些噪音,300个不同的说话人从LibriSpeech的“干净”的数据子集被选择源音频,确保男女比例均衡。特点是音频比较多,含有噪音。
4.LibriSpeech(很适合入门)
含文本+语音的有声读物 数据集,由Vassil Panaytov编写的语料库,其数据来源LibriVox
5