语音合成(speech synthesis)方向四:开源中文和英文训练语料库open speech corpus

本文整理了多个开源的语音合成语料库,包括标贝、AISHELL-3、DiDiSpeech、LJ Speech、VCTK、LibriTTS和CSS10等,涵盖了中文和英文,适用于多说话人合成系统和相关AI研究。这些语料库具有高质量音频和标注信息,对语音合成技术的发展起到了推动作用。

声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进。如转载,请标明出处。

                                                                               欢迎关注微信公众号:低调奋进


目录

1   标贝

2  希尔贝壳

3  DiDiSpeech

4  LJ speech Dataset

5  VCTK

6  LibriTTS

7  CSS10

8 Hi-Fi TTS


语音合成系统的训练需要大量高质量精标语料库,这给很多研究人员带来诸多不便。本篇文章主旨为整理目前开源的语音语料,便于相关从业者使用。首先,我们需要为这些为开源数据做贡献的个人、公司或者组织表达敬意,有了这些开源的数据,才能促进语音合成的发展。

我把个人搜集的语音合成、语音识别和噪声数据整理到个人的网站,有兴趣的研究者可以搜藏  低调奋进

本文章对开源的语音合成数据的选取的标准:音频的质量较高,语料库包含音频和对应的标注信息文件。


                                                                          标贝

     标贝(北京)科技有限公司(简称“标贝科技”)是一家专注智能语音交互和AI数据服务的人工智能公司,为AI领域提供各种高质量的训练语料和技术方案。标贝开源了一万句的女生音库,详细信息如下:

数据内容:中文标准女声语音库数据

录音语料:综合语料样本量;音节音子的数量、类型、音调、音连以及韵律等进行覆盖。

有效时长:约12小时

平均字数:16字

语言类型:标准普通话

发音人:女;20-30岁;声音积极知性

录音环境:声音采集环境为专业录音棚环境:1)录音棚符合专业音库录制标准;2)录音环境和设备自始至终保持不变;3)录音环境的信噪比不低于35dB。

录制工具:专业录音设备及录音软件

采样格式:无压缩PCM WAV格式,采样率为48KHz、16bit

标注内容:音字校对、韵律标注、中文声韵母边界切分

标注格式:文本标注为.txt格式文档;音节音素边界切分文件为.interval格式

质量标准:1. 语音文件为48k 16bit wav格式,音色、音量、语速一致,无漂零无截幅;2.标注文件字准率不低于99.8%;3.音素边界错误大于10ms的比例小于1%;音节边界准确率大于98%.

存储方式:FTP存储

文件格式:音频文件:WAV 文本标注文件:TXT 边界标注文件:INTERVAL

版权所有者:标贝(北京)科技有限公司

想使用该数据的用户请访问链接

                                                       

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值