中文语音合成开源模型总结

近段时间一直忙于语音开源克隆模型的尝试,现总结如下:

MockingBird:特点是克隆的声音音色比较像,缺点也很明显,速度慢,5秒左右,可以优化到0.4-1.2秒左右,MOS值偏低;

Vits:特点是目前公开MOS值最接近真实值的,速度比较快,0.08-0.4秒左右; 

ms_istft_vits:特点是性能是vits的4倍左右,速度更快,0.06-0.1秒左右,MOS值接近真实值。

这些模型代码或多或少都有些BUG,需要自己去修复,另外vits类的多人训练模型代码需要自己修改,可以使用拼音,也可以使用音素,使用音素加上停顿效果更佳。

vits模型多人训练以AISHELL-3 多人(174人,8万多条语音)中文数据集8K采样率,batch_size=16,需要训练到500K步效果比较好。T4 GPU 16G大概需要训练10天左右。AISHELL单人1万条女声44K采样率,模型大概需要9天左右,240K步效果比较好,可以克隆荷塘月色。

多音字方面:需要维护自己的多音字字典。

加速方面:量化、转onnx或script模型失败,代码不支持,其中转traced_model成功,但性能很低,短句需要10秒,放弃。

论文MOS值对比图:

 

 MOS值及单次推理性能(单位:秒)对比:

### 开源语音合成模型概述 开源社区提供了多种用于语音合成的技术方案和支持工具。其中一些项目不仅具备强大的功能,还拥有活跃的开发者群体和丰富的文档资源。 #### 1. Tacotron 2 Tacotron 2 是由 Google 提供的一个基于深度学习的端到端文本转语音 (TTS) 模型。该模型能够生成自然流畅的人声效果,在多个应用场景下表现出色[^1]。 ```python from tacotron2 import Tacotron2 model = Tacotron2() ``` #### 2. WaveNet WaveNet 是 DeepMind 推出的一种神经网络架构,专门设计用来捕捉音频信号中的复杂模式并实现高质量的声音重建。其特点是通过自回归的方式逐样本预测波形数据。 ```python import wavenet audio_samples = wavenet.generate(text_input) ``` #### 3. ESPnet ESPnet 是一个集成了解码器、编码器以及 TTS 功能的一体化平台。它支持多语言处理,并且内置了大量的预训练模型可供选择。此外,ESPnet 还兼容其他流行的机器翻译框架,便于构建跨模态应用系统[^2]。 ```bash git clone https://github.com/espnet/espnet.git cd espnet pip install -e . ``` #### 4. Coqui TTS Coqui TTS 前身为 Mozilla TTS,是一个完全开放源代码的 TTS 工具包。该项目致力于简化从零开始创建定制化的语音助手的过程,同时也适用于研究目的。Coqui TTS 支持 GPU 加速训练流程,从而提高了开发效率[^3]。 ```bash pip install coqui-tts tts --text "Your text here" ``` #### 5. Festival Speech Synthesis System Festival 是早期较为知名的 TTS 解决方案之一,至今仍然被广泛应用于教育领域和技术演示当中。尽管界面相对陈旧,但是由于其高度可配置性和良好的扩展性而备受青睐[^4]。 ```bash festival --tts < input.txt ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jacky_wxl(微信同号)

喜欢作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值