一分钟教你使用GPT-SoVITS-克隆你的声音-效果十分逼真-全干货教程

一分钟教你使用GPT-SoVITS-克隆你的声音-效果十分逼真-全干货教程

一、GPT-SoVITS下载首先该模型是GitHub上的开源项目,可以直接下载GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)项目下载后压缩包放入一个非中文路径解压,解压后在文件夹找到go-webui.bat,双击运行即可,如果长时间cmd没反应,可以尝试回车,或者在顶头右键属性,取消快速编辑模式并确定即可image.pngimage.pngimage.png启动成功后浏览器会自动打开这个UI界面,接下来我们就可以正式开始了image.png二、GPT-SoVITS使用首先我们可以准备好一段音频,用于切割训练,我这里准备了四分钟,取自一个视频中的音频1.人声分离音频分离可以将“是否开启UVR5-WebUI”勾选上,等待几秒就会自动打开这个界面,选择需要处理的音频,选择好模型和输出的文件夹目录后就可以开始转换了image.png2.音频处理得到需要训练的音频后,我们将音频的文件路径复制到第一个方框,然后在第二个方框选择输出的路径,其余不变即可,点击开启语音切割,耐心等待几秒钟,文件就会被切割成几秒钟的一句话image.pngimage.png随后下面找到ASR音频处理,文件路径选择刚刚切分好音频的文件夹,输出路径也选择一个文件夹用于存放生成的list文件注:ASR模型可以自己选择,只训练中文可以不修改,但如果想生成英文或者日语,可以自行选择image.png生成好的文件image.png最后我们在下方填入list的文件路径,点击下方开启语音文本校对标注工具,开始打标此操作也会启动一个新的界面3.音频打标进入如下界面后即可进行打标,左侧为自动生成的文字,中间为原音频,我们需要根据音频实际去修改左侧文字,看看是否有错误,错误一般为文字错误,标点错误,断句错误等,修改好后点击第二个Submit Test提交即可本页检查完,如果有第二页,则点击右上角Next跳转下一页进行打标,需要删除音频则勾选yes,然后点击顶部的Delete Audio进行删除image.png文件全部打标完成,点击Save File即可,然后关闭页面,把上一个页面的“是否开启打标WebUI”勾给取消,滚动到界面上方跳转到TTS界面image.png4.TTS处理这一步很简单,我们只需要使用更改这一个list文件夹目录即可image.png随后找到最底下的一键三连!!!(疯狂暗示)image.png文件处理完成后上方切换到1B-微调训练可以自己更改数值,一般不建议太大,以我笔记本3050为例,默认的数值保持不变如下,生成模型所需要的时间和轮数以及保存频率有关,模型数量可以自己计算模型数量=总训练轮数÷保存频率点击开启SoVITS训练,也点击GPT训练这一步耗时较长,我们在控制台可以看到运行的结果image.png5.TTS推理训练结束后,点击跳转1C-推理同理,其他都不用动,模型列表我们默认选择最大的,我这里就是e15和e8,都选上之后,点击开启TTS推理webUI,耐心等待界面跳转image.pngimage.pngimage.png跳转到此界面后我们可以详细看一看内容首先这里面也可以选择模型进行更改,这个设置也很不错看到下边,需要我们上传10秒以内的音频,注意了,这里是十秒音频,必须和前边训练的声音要一致,前边假如训练的是自己的声音,那这里也要上传自己的声音,而且此次生成的音频语气感情都会参照这10秒内的声音来合成看旁边,参考音频文本,就填这十秒音频的文本即可,要对应上下方需要合成的文本,我们可以自己填需要文本转语音的内容,可以长可以短,如果需要短句,则在底部输入,选择要切分的类型,切分好后再粘贴进需要生成的文本里最后点击合成语音,大功告成!image.png在这个页面可以预览生成的语音,点击语音条旁边的三个点就可以下载如果不满意还可以重复生成文件夹里的output文件夹就是存放所有的输出,我们可以定期删除清理掉,减少磁盘占用(每次生成的语音都会保存在这里,所以也不用点击下载,会自动保存进文件夹中)image.png
博客原文:专业人工智能技术社区

### 关于 GPT-SoVITS使用教程 GPT-SoVITS 是一种基于少样本学习的语音克隆与合成工具,能够通过少量音频数据实现高质量的声音模仿和文本转语音功能[^3]。以下是有关其使用的详细介绍: #### 1. 安装准备 为了运行 GPT-SoVITS,需要先完成必要的软件环境配置。官方推荐的测试环境包括 CUDA 12.1 和 RTX 3060 显卡(至少具备 12GB VRAM),以及主机内存不低于 48GB。 如果硬件条件不足,则可能无法正常运行完整的模型推断流程。对于满足最低需求的情况,可以按照以下步骤操作: ```bash git clone https://github.com/RVC-Boss/GPT-SoVITS.git cd GPT-SoVITS-v2-240821/ ``` 上述命令用于下载并切换至项目的指定版本文件夹[^1]。 #### 2. 数据准备 要成功训练或微调 GPT-SoVITS 模型,需提供一定量的目标说话人的录音资料作为输入源。具体而言,零样本文本到语音模式只需上传约 **5秒** 的音效片段;而针对更高精度的需求,则建议收集不少于 **1分钟** 的清晰朗读素材来构建专属声纹特征数据库。 此外,在实际应用过程中还涉及多个预处理环节,比如利用 WebUI 提供的功能模块执行如下任务: - 声音伴奏分离:提取干净的人声部分; - 自动切分训练集合:将原始长音频切割成适合网络摄取的小段落; - 中文 ASR 及文字标记生成:为每条记录附加对应的拼音序列以便后续建模参考。 #### 3. 启动服务端程序 当一切就绪之后,可以通过双击 `start.bat` 文件或者手动开启 PowerShell 终端窗口依次键入下列指令以激活在线演示界面: ```powershell conda activate gpt_sovits_env python webui.py --colab False ``` 这一步骤会加载默认参数设置下的图形化管理面板,并允许用户直观地调整各项选项直至获得满意的结果为止。 #### 4. 实验验证 最后阶段便是尝试不同的应用场景组合,观察最终产出物的质量表现如何。例如,选取一段未曾见过的新句子交给系统预测发音效果;又或者是对比多轮迭代优化前后差异等等。 --- ### 注意事项 尽管该项目开源免费分享给公众研究探讨之用,但仍应严格遵守相关法律法规,不得擅自将其应用于任何违法活动当中去损害他人合法权益的行为发生。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值