GPT-SoVITS是有一款能够克隆你自己音色的文本转音频工具。
项目地址:https://github.com/RVC-Boss/GPT-SoVITS/tree/main
作者提供了多种安装部署方式,非常简单便洁!
本文使用的是windows下面的一键部署。
下面讲解一下工具的具体使用方式。
首先准备一段自己的音频文件,为了保证模型微调的效果,不要过短。
【音频自动切分输入路径,可文件可文件夹】填入音频路径,点击开启语音分割
接下来划到下方【0c-中文批量离线ASR工具】,【输入文件夹路径】填入分割后的文件夹路径(在output/slicer_opt中),点击开启离线批量ASR

完成后点击【0d-语音文本校对标注工具】中的【是否开启打标webui】,在这里可以完成语音识别内容的修正,修正完成后点击【Submit Text】

回到上方菜单栏,点击【1-GPT-SoVITS-TTS】,在【1A-训练集格式化工具】填入【文本标注文件】和【训练集音频文件目录】,点击【一键三连】