MB-iSTFT-VITS多语言轻量级高保真端到端文本转语音系统安装与使用指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00640/article/details/142272951

MB-iSTFT-VITS多语言轻量级高保真端到端文本转语音系统安装与使用指南

MB-iSTFT-VITS-multilingual 项目地址: https://gitcode.com/gh_mirrors/mb/MB-iSTFT-VITS-multilingual

本指南将引导您了解并使用MB-iSTFT-VITS-multilingual这一开源项目，该系统支持多种语言的文本转换为语音，并且实现了比原VITS模型快约4.1倍的推理速度。

1. 项目目录结构及介绍

项目主要结构如下：

MB-iSTFT-VITS-multilingual/
├── configs/              # 配置文件夹，包含不同模型设置的JSON文件
│   ├── ljs_istft_vits.json
│   ├── ljs_mb_istft_vits.json
│   ├── ljs_ms_istft_vits.json
│   └── ...               # 其他可能的配置文件
├── data_utils.py         # 数据处理工具
├── inference.ipynb       # 推理示例脚本或Jupyter笔记本
├── licenses.txt          # 许可证文件
├── models/               # 模型代码存放处
├── preprocess.py         # 数据预处理脚本
├── requirements.txt      # 必要的Python包依赖列表
├── train_latest.py       # 单语者训练脚本
├── train_latest_ms.py    # 多语者训练脚本
├── ...                   # 其它如损失函数定义（stft_loss.py），数据转换等模块
└── README.md             # 项目说明文档

configs/: 包含了不同版本模型的配置信息。
preprocess.py: 数据预处理脚本，用于准备训练数据。
train_latest.py, train_latest_ms.py: 分别用于单语者和多语者的模型训练。
requirements.txt: 列出运行项目所需的第三方库。
inference.ipynb: 提供了一个进行模型推理的示例。
models/: 存放模型实现代码。
stft_loss.py: 定义了短时傅里叶变换相关的损失函数。

2. 项目的启动文件介绍

主要启动文件

preprocess.py: 在训练之前，你需要运行此脚本来对原始音频和文本数据进行预处理。该脚本需要正确的配置文件路径以及文本清洗器的选择。
train_latest.py 和 train_latest_ms.py: 分别用于开始单语者和多语者模型的训练。你需要提供一个配置文件(-c)以及指定模型保存的目录(-m)。
inference.ipynb: 如果想要测试模型，这个Jupyter笔记本提供了如何使用训练好的模型进行语音合成的示例。

3. 项目的配置文件介绍

配置文件位于configs/目录下，每个.json文件定义了模型的具体参数，比如是否使用MB-iSTFT，上采样率，子带数量等关键设置。以其中一个示例文件为例：

{
  "istft_vits": false,
  "mb_istft_vits": true,
  "subbands": 4,
  "upsample_rates": [4, 4],
  ... // 其它配置项
}

这些配置文件中的关键参数直接影响模型的架构和性能。在开始训练前，确保根据你的需求正确调整这些设置。

使用步骤简述

环境搭建: 确保安装Python 3.6及以上版本，然后通过pip安装必要的依赖项（使用pip install -r requirements.txt）。
预处理数据: 准备好音频和对应的文本，并创建manifest文件，使用preprocess.py进行预处理。
配置设置: 根据需要选择或修改配置文件。
训练模型: 依据是单语者还是多语者数据，分别调用train_latest.py或train_latest_ms.py进行训练。
推理测试: 训练完成后，利用inference.ipynb或提供的推理脚本测试模型。