你的声音，现在是我的了！手把手教你用AI工具 GPT-SoVITS 克隆声音！

最新推荐文章于 2025-09-26 00:57:43 发布

原创最新推荐文章于 2025-09-26 00:57:43 发布 · 3.6k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #gpt #AI作画 #AIGC #stable diffusion #声音克隆

本文介绍了如何使用GPT-SoVITS进行音频处理，包括人声分离、切割、打标和训练，以及AIGC技术在音频合成中的应用。作者提供了详细的步骤和所需工具，展示了AIGC技术在自媒体和娱乐领域的实践潜力。

大家好，我是程序员晓晓

如果你想简单快速的克隆一个声音，然后用于自媒体或者整蛊，那都得感谢GPT-SoVITS这个项目，它是由@花儿不哭，和@Rcel 的两位大佬共同开发的。本期文章就讲讲该怎么用。而且怎么简单怎么说，过程主要分为：人声分离、切割、打标、训练、使用。

一、下载整合包

整合包请看文末扫描获取。

下载整合包之后解压一下，然后打开GPT-SoVITS文件夹，双击运行 go-webui.bat 就成功启动了，浏览器会自动打开 http://localhost:9874/

二、人声分离

这一步不是必须，如果你的素材有背景音乐之类的噪音，可以用这里的UVR5 处理一下，首先我们先勾选 UVR5-WebUI ，耐心等待一会儿，它会自动打开一个新的页面，这个等待时间可能会稍微有点长。

然后把需要处理的音频素材拖进来，然后按照文字提示在这里选择对应的模型，再点击转换，等待一会儿就处理好了。

转换后的文件默认会保存在 \output\uvr5_opt 目录下，这里可能会存在一些非人声音频，所以建议把每一条都听一遍，然后把不需要的删除。

二、音频切割

然后我们来切割音频，首先在这里输入音频所在文件夹，其余参数保持不变。

默认会输出在**\output\slicer_opt**文件夹里。

三、音频打标

然后我们来进行音频打标，红框的地方填入刚才分割后的所在的文件夹，然后点击‘开启离线批量ASR’，默认会输出在**\output\asr_opt**文件夹里。

为了获得更好的效果，我们需要对打标结果进行校正。首先填入这个list文件的路径，然后勾选‘是否开启打标webUl’, 耐心等待它自动打开。

然后在这个新页面里点这里可以播放音频。你对照着看左边的文本有没有差错，有的话就修改一下。记得点一下 submit text 的保存结果，然后点 next index 切换换到下一页。每次切换页面之前一定要点这个按钮来保存修改，不然就前功尽弃了。

五、音频训练

切换到 GPT-SOVITS-TTS 标签页，然后填入文本标注文件的路径，以及训练集音频文件目录的路径，然后点击底部的“开启一键三连”按钮，耐心等待，直至提示处理完毕。

然后我们切换到1B-微调训练，页面参数先全部保持默认。我们只需要依次进行这两个模型的训练就行。

附batch_size的建议值：

六、开始克隆

然后我们切换到1C-推理，先刷新模型列表，再选择上一步生成的GPT模型、SoVITS模型，最后勾选‘是否开启TTS推理WebUI’。耐心等待打开新的页面。

在这里我们要先上传一段音频，你可以直接从切割好的音频里选一个，然后在右边这里输入音频对应的文本内容，再选择对应的语种。注意这个参考音频对最终合成的效果影响还是很大的。

最后，再输入要合成的文本，点击‘合成语音’即可。

写在最后

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述