语音合成（speech synthesis）方向四：开源中文和英文训练语料库open speech corpus

最新推荐文章于 2025-09-21 09:41:49 发布

原创

最新推荐文章于 2025-09-21 09:41:49 发布 · 4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语音识别 #人工智能 #深度学习 #机器学习 #tts

本文整理了多个开源的语音合成语料库，包括标贝、AISHELL-3、DiDiSpeech、LJ Speech、VCTK、LibriTTS和CSS10等，涵盖了中文和英文，适用于多说话人合成系统和相关AI研究。这些语料库具有高质量音频和标注信息，对语音合成技术的发展起到了推动作用。

声明：工作以来主要从事TTS工作，工程算法都有涉及，平时看些文章做些笔记。文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：TTS 论文列表低调奋进 TTS 开源数据低调奋进。如转载，请标明出处。

欢迎关注微信公众号：低调奋进

目录

1 标贝

2 希尔贝壳

3 DiDiSpeech

4 LJ speech Dataset

5 VCTK

6 LibriTTS

7 CSS10

8 Hi-Fi TTS

语音合成系统的训练需要大量高质量精标语料库，这给很多研究人员带来诸多不便。本篇文章主旨为整理目前开源的语音语料，便于相关从业者使用。首先，我们需要为这些为开源数据做贡献的个人、公司或者组织表达敬意，有了这些开源的数据，才能促进语音合成的发展。

我把个人搜集的语音合成、语音识别和噪声数据整理到个人的网站，有兴趣的研究者可以搜藏低调奋进

本文章对开源的语音合成数据的选取的标准：音频的质量较高，语料库包含音频和对应的标注信息文件。

标贝

标贝（北京）科技有限公司（简称“标贝科技”）是一家专注智能语音交互和AI数据服务的人工智能公司，为AI领域提供各种高质量的训练语料和技术方案。标贝开源了一万句的女生音库，详细信息如下：

数据内容：中文标准女声语音库数据

录音语料：综合语料样本量；音节音子的数量、类型、音调、音连以及韵律等进行覆盖。

有效时长：约12小时

平均字数：16字

语言类型：标准普通话

发音人：女；20-30岁；声音积极知性

录音环境：声音采集环境为专业录音棚环境：1）录音棚符合专业音库录制标准；2）录音环境和设备自始至终保持不变；3）录音环境的信噪比不低于35dB。

录制工具：专业录音设备及录音软件

采样格式：无压缩PCM WAV格式，采样率为48KHz、16bit

标注内容：音字校对、韵律标注、中文声韵母边界切分

标注格式：文本标注为.txt格式文档；音节音素边界切分文件为.interval格式

质量标准：1. 语音文件为48k 16bit wav格式，音色、音量、语速一致，无漂零无截幅；2.标注文件字准率不低于99.8%；3.音素边界错误大于10ms的比例小于1%；音节边界准确率大于98%.

存储方式：FTP存储

文件格式：音频文件：WAV 文本标注文件：TXT 边界标注文件：INTERVAL

版权所有者：标贝（北京）科技有限公司

想使用该数据的用户请访问链接

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我叫永强 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。