VTBerTalk 开源项目安装与使用指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00979/article/details/142840497

VTBerTalk 开源项目安装与使用指南

VTuberTalk 项目地址: https://gitcode.com/gh_mirrors/vt/VTuberTalk

1. 项目目录结构及介绍

VTuberTalk
├── train                     # 训练脚本及相关文件夹
├── gui                       # 图形界面相关代码
├── tools                     # 工具集合，包括数据处理等脚本
│   ├── video_to_wav.py       # 视频转音频脚本
│   ├── ...
├── pretrained_models         # 预训练模型存放处
│   ├── 2stems                # 示例模型文件夹
│   ├── ...
├── MFA                       # Montreal Forced Aligner相关文件
│   ├── pinyin_eng.dict       # 中英文混合字典
│   └── mfa_model.zip         # MFA模型压缩包
├── data                      # 存放处理过的原始数据
│   ├── wav_temp              # 临时音频文件夹
│   │   ├── speaker_name1     # 不同虚拟主播的数据子文件夹
│   ├── wav                   # 处理后的音频目录
│   ├── TextGrid               # 对齐后的文本网格文件
│   └── durations.txt         # 时长文件，用于模型训练
├── README.md                 # 主要项目说明文件
├── LICENSE                   # 许可证文件
└── 脚本文件（如：requirements.txt, run_preprocess.sh等）

介绍: VTBerTalk是一个基于PaddleSpeech的TTS系统，旨在通过训练虚拟YouTuber（VTuber）的声音，实现输入文本到对应语音的转换。项目覆盖从数据准备到模型训练的完整流程。

2. 项目启动文件介绍

主要启动脚本：run_preprocess.sh 和 run_train.sh
- run_preprocess.sh: 数据预处理脚本，自动执行一系列步骤，从原始视频音频提取至准备阶段完成。
- run_train.sh: 训练脚本的快捷方式，执行模型的训练过程。
配置文件调用：在训练具体模型时，如FastSpeech2或SpeedySpeech，会依赖位于train/conf下的.yaml配置文件来指定模型参数和路径。