【本地音色还原工具】GPT-SoVITS文本转音频

GPT-SoVITS是有一款能够克隆你自己音色的文本转音频工具。
项目地址:https://github.com/RVC-Boss/GPT-SoVITS/tree/main
作者提供了多种安装部署方式,非常简单便洁!

本文使用的是windows下面的一键部署。
下面讲解一下工具的具体使用方式。

首先准备一段自己的音频文件,为了保证模型微调的效果,不要过短。
【音频自动切分输入路径,可文件可文件夹】填入音频路径,点击开启语音分割

接下来划到下方【0c-中文批量离线ASR工具】,【输入文件夹路径】填入分割后的文件夹路径(在output/slicer_opt中),点击开启离线批量ASR

完成后点击【0d-语音文本校对标注工具】中的【是否开启打标webui】,在这里可以完成语音识别内容的修正,修正完成后点击【Submit Text】

回到上方菜单栏,点击【1-GPT-SoVITS-TTS】,在【1A-训练集格式化工具】填入【文本标注文件】和【训练集音频文件目录】,点击【一键三连】

### 使用GPT-SoVITS进行文本语音并生成SRT文件 #### 准备工作 为了使用GPT-SoVITS文本换为语音并生成SRT字幕文件,需先完成环境配置。确保已安装Windows整合包,并按照说明启动WebUI[^5]。 ```bash # 解压下载的文件至指定位置 unzip gpt-sovits-windows.zip -d ./sovits-env/ cd sovits-env/ # 启动web界面 ./go-webui.bat ``` 访问`http://localhost:9874/`进入操作面板,在“1-GPT-SoVITS-TTS”页面准备后续步骤所需资源。 #### 创建映射列表 创建`.list`格式的文本注释文件用于定义待合成语句的信息。每一行应遵循如下结构: ``` audio_path|speaker_name|language|text_to_convert ``` 此文件不仅指导模型理解要化的内容还指定了说话者身份和语言种类[^1]。 #### 执行文本到语音换 上传之前制作好的`dataset_mapping.list`文件以及对应的音频素材库给平台处理。利用“1A-训练集格式化工具”的选项执行必要的预处理动作;随后切换至“1C-推理”部分实施实际的文字发音变过程。 对于每次想要换的新句子,都应当单独形成一行记录追加进现有的列表文档里再重复上述流程直至全部内容被化为相应的语音样本。 #### 生成SRT字幕文件 当所有目标文字均已成功变为声音之后,收集这些输出片段并与原始时间轴相匹配从而构建起完整的字幕描述。假设有一个Python脚本来辅助这项任务,则可能看起来像这样: ```python def create_srt(timings, texts): with open('output.srt', 'w') as f: for i, (start_time, end_time) in enumerate(timings): text = texts[i] entry = f"{i + 1}\n{format_time(start_time)} --> {format_time(end_time)}\n{text}\n\n" f.write(entry) def format_time(seconds): m, s = divmod(int(seconds), 60) h, m = divmod(m, 60) ms = int((seconds % 1) * 1000) return "{:02}:{:02}:{:02},{:03}".format(h, m, s, ms) timings = [(0.5, 3.2), (4.1, 6.7)] # 示例时间段 texts = ["这是第一条消息", "这里是第二条"] # 对应的消息体 create_srt(timings, texts) ``` 这段代码接收两个列表作为输入参数:一个是表示各段落开始结束时刻的时间戳数组;另一个则是对应于各个时段内的显示文案集合。最终它会写出符合标准格式要求的SRT文件保存下来供进一步应用或编辑之用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值