AI音频主流开源模型盘点

音频

1、GPT-SoVITS

2024年1月发布,目前更新到v4(2025年4月)。

**零样本文本到语音 (TTS): ** 输入 5 秒的声音样本, 即刻体验文本到语音转换. 意思应该是能用预训练模型+参考音频直接推理,不训练。

**少样本 TTS: ** 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.

**跨语言支持: ** 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.

**WebUI 工具: ** 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

官方教程很全面,不用通过pycharm搭环境,有整合包。

https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

音色克隆很像,缺点是读稿味重。

2、ChatTTS

ChatTTS 是一个专为对话场景设计的文本到语音模型,例如 LLM 助手。

https://github.com/2noise/ChatTTS

2024年5月发布,后来就没怎么更新。相关项目挺多,https://github.com/libukai/Awesome-ChatTTS/tree/en

还是常规步骤,pycharm去clone代码,建conda环境,python3.11,pip install -r requirements.txt,注意,requirements.txt中的torch版本写的是大于啥啥,我本机有2.6版本的,conda直接就装了2.6的,导致装好识别不了cuda,我以为是版本问题,后来发现还是没加--index-url的问题,于是我执行pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 成功了。

启动命令是python examples/web/webui.py

这个chattts只能用它训练好的音色,但他的音色都是随机的,而且它github主页主要讲代码怎么调用,没说页面怎么用,这里的Interface Description章节有图对chattts的界面功能做了介绍https://github.com/libukai/Awesome-ChatTTS/tree/en ,界面不好用,其他项目已经对他做了封装,并归纳了些随机音色,直接使用2.1、2.2扩展的项目吧。

这是代码使用教程,方便接入LLM,第二个链接是相关的视频教程https://github.com/TommyZihao/ChatTTS_Tutorials/blob/main/zihao_chattts_20240613_4/%E3%80%90C%E3%80%91%E5%90%AF%E5%8A%A8WebUI.ipynb

https://www.bilibili.com/video/BV1Ui421v7JU/?vd_source=b958002f14b88fc59432b810e4448b72

2.1 ChatTTS-ui

用web界面封装了ChatTTS。

https://github.com/jianchang512/ChatTTS-ui

为了解决音色随机问题,它有个配套网站http://ttslist.aiqbh.com/ 里面是各种音色。

页面可以设置三种oral连词,break停顿,laugh笑 [oral_5][laugh_6][break_6]。我在pycharm中给ChatTTS-ui也用了ChatTTS的conda环境。

ChatTTS-ui 改了torch版本,pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118

但没影响ChatTTS。

启动命令python app.py。

此外,围绕ChatTTS开发的几个工具在https://github.com/libukai/Awesome-ChatTTS,除了ChatTTS-ui能固定音色,我还想训练自己的音色,于是下载了Awesome里的Speech-AI-Forge

2.2 Speech-AI-Forge

https://github.com/lenML/Speech-AI-Forge

安装教程https://github.com/lenML/Speech-AI-Forge/blob/main/docs/dependencies.md

pycharm中clone代码后,我还是用chatTTS的conda环境,然后下载模型文件我用的是python -m scripts.download_models --source modelscope 从魔搭社区下载,但有个文件不在了,我又去huggingface的镜像站找这个mp_rank_00_model_states.pt文件下载,

ffmpeg不用管,torch用的是cu121的,用pip3 install torch torchvision torchaudio --index-url https://mirror.sjtu.edu.cn/pytorch-wheels/cu121安装,最后python -m pip install -r requirements.windows.txt,

最坑的是有个库需要c++,我又下载了个visual studio,具体操作在https://blog.youkuaiyun.com/Lc_001/article/details/129195335,我本想去掉windows11 sdk,但不行,一共6个G全下了

这个环境装好后,ChatTTS-ui和ChatTTS都还能正常使用

启动命令python webui.py

4、index-tts

2025年9月更新的文本转语音模型 https://github.com/index-tts/index-tts

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值