AI音频主流开源模型盘点

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 502 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #音视频

其他技术专栏收录该内容

2 篇文章

订阅专栏

音频

1、GPT-SoVITS

2024年1月发布，目前更新到v4(2025年4月)。

**零样本文本到语音 (TTS): ** 输入 5 秒的声音样本, 即刻体验文本到语音转换. 意思应该是能用预训练模型+参考音频直接推理，不训练。

**少样本 TTS: ** 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.

**跨语言支持: ** 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.

**WebUI 工具: ** 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

官方教程很全面，不用通过pycharm搭环境，有整合包。

https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

音色克隆很像，缺点是读稿味重。

2、ChatTTS

ChatTTS 是一个专为对话场景设计的文本到语音模型，例如 LLM 助手。

https://github.com/2noise/ChatTTS

2024年5月发布，后来就没怎么更新。相关项目挺多，https://github.com/libukai/Awesome-ChatTTS/tree/en

还是常规步骤，pycharm去clone代码，建conda环境，python3.11，pip install -r requirements.txt，注意，requirements.txt中的torch版本写的是大于啥啥，我本机有2.6版本的，conda直接就装了2.6的，导致装好识别不了cuda，我以为是版本问题，后来发现还是没加--index-url的问题，于是我执行pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 成功了。

启动命令是python examples/web/webui.py

这个chattts只能用它训练好的音色，但他的音色都是随机的，而且它github主页主要讲代码怎么调用，没说页面怎么用，这里的Interface Description章节有图对chattts的界面功能做了介绍https://github.com/libukai/Awesome-ChatTTS/tree/en ，界面不好用，其他项目已经对他做了封装，并归纳了些随机音色，直接使用2.1、2.2扩展的项目吧。

这是代码使用教程，方便接入LLM，第二个链接是相关的视频教程https://github.com/TommyZihao/ChatTTS_Tutorials/blob/main/zihao_chattts_20240613_4/%E3%80%90C%E3%80%91%E5%90%AF%E5%8A%A8WebUI.ipynb。

https://www.bilibili.com/video/BV1Ui421v7JU/?vd_source=b958002f14b88fc59432b810e4448b72

2.1 ChatTTS-ui

用web界面封装了ChatTTS。

https://github.com/jianchang512/ChatTTS-ui

为了解决音色随机问题，它有个配套网站http://ttslist.aiqbh.com/ 里面是各种音色。

页面可以设置三种oral连词，break停顿，laugh笑 [oral_5][laugh_6][break_6]。我在pycharm中给ChatTTS-ui也用了ChatTTS的conda环境。

ChatTTS-ui 改了torch版本，pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118

但没影响ChatTTS。

启动命令python app.py。

此外，围绕ChatTTS开发的几个工具在https://github.com/libukai/Awesome-ChatTTS，除了ChatTTS-ui能固定音色，我还想训练自己的音色，于是下载了Awesome里的Speech-AI-Forge

2.2 Speech-AI-Forge

https://github.com/lenML/Speech-AI-Forge

安装教程https://github.com/lenML/Speech-AI-Forge/blob/main/docs/dependencies.md

pycharm中clone代码后，我还是用chatTTS的conda环境，然后下载模型文件我用的是python -m scripts.download_models --source modelscope 从魔搭社区下载，但有个文件不在了，我又去huggingface的镜像站找这个mp_rank_00_model_states.pt文件下载，

ffmpeg不用管，torch用的是cu121的，用pip3 install torch torchvision torchaudio --index-url https://mirror.sjtu.edu.cn/pytorch-wheels/cu121安装，最后python -m pip install -r requirements.windows.txt，

最坑的是有个库需要c++，我又下载了个visual studio，具体操作在https://blog.youkuaiyun.com/Lc_001/article/details/129195335，我本想去掉windows11 sdk，但不行，一共6个G全下了

这个环境装好后，ChatTTS-ui和ChatTTS都还能正常使用

启动命令python webui.py。