AI语音生成必备:开源TTS工具GPT-SoVITS的汉化整合包部署指南

前言

今天我要给大家揭秘一个超级有趣的‘声音魔法’——GPT-SoVITS!这款由花儿不哭大佬精心打造的语音克隆工具,在GitHub上已经收获了超35K颗星星,绝对算得上是声音界的明星产品了。你可能要问:这东西会不会很难用啊?错啦!GPT-SoVITS V2版不仅支持中、日、英、韩、粤五种语言,还增加了许多实用功能,比如语速调节和无参考文本模式。最棒的是,它为Windows用户准备了整合包,下载解压就能轻松上手。不过,假如你只有一台性能强劲的电脑,并且希望在外出时也能随心所欲地使用这个项目怎么办?别急!有了cpolar这位‘内网穿越大师’的帮助,这一切都不再是难题。下面就跟着我一起来解锁这项酷炫技能吧!

image-20241108171803594

1.GPT-SoVITS V2下载

本例演示环境为Windows11专业版,8G显卡,16G内存。

首先,我们需要在下面的地址下载GPT-SoVITS V2的Windows整合包:

https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#KTvnO

大佬提供了多种下载方式:

image-20241108171731194

我这里下载的是V2版本,下载好后,解压缩后得到GPT-SoVITS-v2-240821文件夹。

2.本地运行GPT-SoVITS V2

打开 GPT-SoVITS-v2-240821 文件夹,双击名为go-webui的bat格式文件即可启动服务:

image-20241108172017839

服务启动后会弹出一个cmd终端窗口,然后会在浏览器中打开GPT-SoVITS V2的webui网页页面,我们接下来可以在这里制作AI音频,但要注意不要关掉cmd终端窗口,因为它才是服务的本体,网页端只是操作界面。

image-20241108172723878

image-20241108172824373

3.简单使用演示

在GPT-SoVITS V2的webui网页页面,我们可以看到默认展示的是0-前置数据集获工具界面,旁边是1-GPT-SoVITS-TTS界面和2-GPT-SoVITS-变声界面

image-20241108173017766

我们可以在0-前置数据集获工具界面进行人声伴奏分离&去混响去延迟,语音切分、降噪等操作,来对要使用的语音进行训练,生成效果更逼真的语音模型。

image-20241108173301904

而如果想马上快速体验一下TTS语音克隆,我们可以点击旁边的1-GPT-SoVITS-TTS界面,选择下面的1C-推理,点击开启TTS推理WebUI:

image-20241108173619074

稍等一下后,会在浏览器中新打开一个TTS推理网页,我们可以在这里上传原始音频,时长3到10秒即可,超过会报错。然后可以在下方填写想要合成的目标文本和语种模式:

image-20241108173957977

输入好所需信息后,点击合成语音按钮,服务端进行处理,稍后在webui界面即可看到生成的音频:

image-20241108174655802

image-20241108174751702

可以点击播放进行试听,点击右上角的下载标志即可将生成的AI音频下载到本地。

而刚才提到的2-GPT-SoVITS-变声功能目前还没有推出,可以期待一下作者大佬下次的更新。

image-20241108175825262

4.安装内网穿透工具

此时,我们已经成功在Windows电脑中本地部署了GPT-SoVITS V2,但就像开篇时说的那样,我们在这台配置高的电脑上部署了服务后,只能在同一个局域网内使用,有一定局限性。如果想外出时也能远程访问家中部署的GPT-SoVITS或是其他服务,应该怎么办呢?

很简单,只要在电脑中再安装一个cpolar内网穿透工具就能轻松实现远程访问内网主机中部署的服务了,接下来介绍一下如何安装cpolar内网穿透。

首先进入cpolar官网,点击免费使用注册一个账号,并下载最新版本的Cpolar。

cpolar官网地址: https://www.cpolar.com

img

登录成功后,点击下载Cpolar到本地并安装(一路默认安装即可)本教程选择下载Windows版本。

image-20240319175308664

Cpolar安装成功后,在浏览器上访问http://localhost:9200,使用cpolar账号登录,登录后即可看到Cpolar web 配置界面,结下来在web 管理界面配置即可。

img

4.1 创建远程连接公网地址

登录cpolar web UI管理界面后,点击左侧仪表盘的隧道管理——创建隧道:

  • 隧道名称:可自定义,本例使用了: GPTSoVITS 注意不要与已有的隧道名称重复
  • 协议:http
  • 本地地址:9874
  • 域名类型:随机域名
  • 地区:选择China Top
  • 高级:Http Auth:user:123(本例中用户名user 密码123)

点击保存

image-20241108181023458

创建成功后,打开左侧在线隧道列表,可以看到刚刚通过创建隧道生成了两个公网地址,接下来就可以在其他电脑(异地)上,使用任意一个地址在浏览器中访问即可。

image-20241108181127944

如下图所示,输入设置的用户名及密码(也可以不设置高级,就无需用户名密码直接登入,安全起见,建议配置高级)

image-20241108181202876

登录后可以看到成功实现使用公网地址异地远程访问本地部署的GPT-SoVITS V2语音克隆工具的webui界面!

image-20241108181319948

小结

为了方便演示,我们在上边的操作过程中使用了cpolar生成的HTTP公网地址隧道,其公网地址是随机生成的。这种随机地址的优势在于建立速度快,可以立即使用,然而,它的缺点是网址是随机生成,这个地址在24小时内会发生随机变化,更适合于临时使用。

如果有长期远程访问本地部署的语音克隆软件或者其他本地部署的服务的需求,但又不想每天重新配置公网地址,还想地址好看又好记,那我推荐大家选择使用固定的二级子域名方式来远程访问,带宽会更快,使用cpolar在其他用途还可以保留多个子域名,支持多个cpolar在线进程。

5. 固定远程访问公网地址

由于以上使用cpolar所创建的隧道使用的是随机公网地址,24小时内会随机变化,不利于长期远程访问。因此我们可以为其配置二级子域名,该地址为固定地址,不会随机变化。

登录cpolar官网,点击左侧的预留,选择保留二级子域名,地区选择china vip,然后设置一个二级子域名名称,填写备注信息,点击保留。

image-20241108181626103

保留成功后复制保留的二级子域名地址:myyuyin

登录cpolar web UI管理界面,点击左侧仪表盘的隧道管理——隧道列表,找到所要配置的隧道,点击右侧的编辑

image-20241108181748784

修改隧道信息,将保留成功的二级子域名配置到隧道中

  • 域名类型:选择二级子域名
  • Sub Domain:填写保留成功的二级子域名
  • 地区: China VIP

点击更新

image-20241108181834026

更新完成后,打开在线隧道列表,此时可以看到随机的公网地址已经发生变化,地址名称也变成了保留和固定的二级子域名名称。

image-20241108181951821

最后,我们使用固定的公网地址在浏览器打开可以看到访问成功,这样一个永久不会变化的公网网址就设置好了:

image-20241108182724843

怎么样,是不是觉得GPT-SoVITS和cpolar的组合简直不要太厉害呢?无论你是想要制作爆笑视频、动感音乐还是其他创意作品,这对搭档都能让你的声音变得五花八门,充满魅力。如果你也被这个项目所吸引,别忘了到GitHub上给花儿不哭大佬送上你的小星星哦!当然了,我们也非常期待你在评论区晒出自己的使用心得和创作成果,让我们一起开启这场声音的奇幻之旅吧!

### GPTSoVITS整合的资源与方法 #### 资源获取 为了实现GPTSoVITS的有效整合,可以参考已有的开源项目和教程。例如,`TTS-for-GPT-soVITS` 提供了一个基于GPT语音合成系统的实践指南[^1]。该项目含了完整的代码库以及详细的安装说明。 通过克隆该仓库并按照文档中的指引操作即可快速上手: ```bash git clone https://github.com/X-T-E-R/TTS-for-GPT-soVITS.git cd TTS-for-GPT-soVITS ``` 此外,在另一份资料中提到,需将预训练好的GPT模型(`.ckpt` 文件)放置到 `GPT_weights` 文件夹,而 SoVITS 的权重文件(`.pth` 文件)则应存放在 `SoVITS_weights` 文件夹内[^2]。完成上述配置后,系统会自动加载这些模型用于推理任务。 #### 使用示例 以下是简单的 Python 推理脚本示例: ```python from tts_for_gpt_sovits.inference import TextToSpeechPipeline # 初始化管道对象 pipeline = TextToSpeechPipeline(gpt_weight_path="path/to/gpt_model.ckpt", sovits_weight_path="path/to/sovits_model.pth") # 输入待转换的文字 text_input = "这是一段测试文字" # 执行语音合成 audio_output = pipeline(text=text_input) # 输出音频保存路径 output_file = "./output_audio.wav" audio_output.save(output_file) print(f"Audio saved to {output_file}") ``` 此代码片段展示了如何利用封装后的接口来执行端到端的任务——即从输入文本生成对应的语音信号,并将其存储为 WAV 格式的文件。 #### 注意事项 在实际部署过程中需要注意以下几点: - **环境依赖**:确保本地开发环境中已经正确安装了所有必要的依赖项; - **硬件支持**:部分深度学习框架可能需要 GPU 加速才能高效运行,因此建议确认目标设备具备相应的计算能力; - **数据准备**:对于自定义应用场景而言,高质量的数据集往往是提升最终效果的关键因素之一。
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YY的秘密代码小屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值