音频
1、GPT-SoVITS
2024年1月发布,目前更新到v4(2025年4月)。
**零样本文本到语音 (TTS): ** 输入 5 秒的声音样本, 即刻体验文本到语音转换. 意思应该是能用预训练模型+参考音频直接推理,不训练。
**少样本 TTS: ** 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.
**跨语言支持: ** 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.
**WebUI 工具: ** 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.
https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md
官方教程很全面,不用通过pycharm搭环境,有整合包。
https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
音色克隆很像,缺点是读稿味重。
2、ChatTTS
ChatTTS 是一个专为对话场景设计的文本到语音模型,例如 LLM 助手。
https://github.com/2noise/ChatTTS
2024年5月发布,后来就没怎么更新。相关项目挺多,https://github.com/libukai/Awesome-ChatTTS/tree/en
还是常规步骤,pycharm去clone代码,建conda环境,python3.11,pip install -r requirements.txt,注意,requirements.txt中的torch版本写的是大于啥啥,我本机有2.6版本的,conda直接就装了2.6的,导致装好识别不了cuda,我以为是版本问题,后来发现还是没加--index-url的问题,于是我执行pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 成功了。
启动命令是python examples/web/webui.py
这个chattts只能用它训练好的音色,但他的音色都是随机的,而且它github主页主要讲代码怎么调用,没说页面怎么用,这里的Interface Description章节有图对chattts的界面功能做了介绍https://github.com/libukai/Awesome-ChatTTS/tree/en ,界面不好用,其他项目已经对他做了封装,并归纳了些随机音色,直接使用2.1、2.2扩展的项目吧。
这是代码使用教程,方便接入LLM,第二个链接是相关的视频教程https://github.com/TommyZihao/ChatTTS_Tutorials/blob/main/zihao_chattts_20240613_4/%E3%80%90C%E3%80%91%E5%90%AF%E5%8A%A8WebUI.ipynb。
https://www.bilibili.com/video/BV1Ui421v7JU/?vd_source=b958002f14b88fc59432b810e4448b72
2.1 ChatTTS-ui
用web界面封装了ChatTTS。
https://github.com/jianchang512/ChatTTS-ui
为了解决音色随机问题,它有个配套网站http://ttslist.aiqbh.com/ 里面是各种音色。
页面可以设置三种oral连词,break停顿,laugh笑 [oral_5][laugh_6][break_6]。我在pycharm中给ChatTTS-ui也用了ChatTTS的conda环境。
ChatTTS-ui 改了torch版本,pip install torch==2.2.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu118
但没影响ChatTTS。
启动命令python app.py。
此外,围绕ChatTTS开发的几个工具在https://github.com/libukai/Awesome-ChatTTS,除了ChatTTS-ui能固定音色,我还想训练自己的音色,于是下载了Awesome里的Speech-AI-Forge
2.2 Speech-AI-Forge
https://github.com/lenML/Speech-AI-Forge
安装教程https://github.com/lenML/Speech-AI-Forge/blob/main/docs/dependencies.md
pycharm中clone代码后,我还是用chatTTS的conda环境,然后下载模型文件我用的是python -m scripts.download_models --source modelscope 从魔搭社区下载,但有个文件不在了,我又去huggingface的镜像站找这个mp_rank_00_model_states.pt文件下载,
ffmpeg不用管,torch用的是cu121的,用pip3 install torch torchvision torchaudio --index-url https://mirror.sjtu.edu.cn/pytorch-wheels/cu121安装,最后python -m pip install -r requirements.windows.txt,
最坑的是有个库需要c++,我又下载了个visual studio,具体操作在https://blog.youkuaiyun.com/Lc_001/article/details/129195335,我本想去掉windows11 sdk,但不行,一共6个G全下了
这个环境装好后,ChatTTS-ui和ChatTTS都还能正常使用
启动命令python webui.py。
4、index-tts
2025年9月更新的文本转语音模型 https://github.com/index-tts/index-tts
11万+

被折叠的 条评论
为什么被折叠?



