DiffSinger项目：流行歌曲合成声乐系统(SVS)实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00090/article/details/148524548

DiffSinger项目：流行歌曲合成声乐系统(SVS)实践指南

DiffSinger DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (SVS & TTS); AAAI 2022; Official code 项目地址: https://gitcode.com/gh_mirrors/di/DiffSinger

1. 项目概述

DiffSinger是一个基于扩散模型的歌唱声音合成(Singing Voice Synthesis, SVS)系统，专门为流行歌曲设计。该项目采用先进的深度学习技术，能够生成高质量的歌唱声音，具有以下技术特点：

采用扩散模型(Diffusion Model)作为核心架构
支持从MIDI或文本到歌唱声音的端到端合成
提供预训练模型和完整的训练/推理流程
包含专门优化的声码器(Vocoder)

2. 环境准备

2.1 数据集获取与处理

要使用DiffSinger进行流行歌曲声乐合成，首先需要准备PopCS数据集。该数据集包含丰富的歌唱语音样本，是训练高质量SVS模型的基础。

数据集处理步骤如下：

获取PopCS数据集并解压
创建符号链接指向数据集目录
运行数据预处理脚本将原始数据转换为模型可用的二进制格式

预处理命令示例：

export PYTHONPATH=.
python data_gen/tts/bin/binarize.py --config usr/configs/popcs_ds_beta6.yaml

预处理完成后，系统会自动生成data/binary/popcs-pmf0目录，包含处理后的训练数据。

2.2 声码器准备

DiffSinger使用专门优化的HiFiGAN-Singing作为声码器，该声码器具有以下特点：

专为歌唱声音合成设计
采用NSF(Neural Source Filter)机制
在约70小时的歌唱数据上预训练
可作为通用声码器使用

使用前需要将预训练的声码器模型解压到项目指定目录。

3. 模型训练流程

3.1 训练FFT-Singer基础模型

DiffSinger采用两阶段训练策略，首先需要训练FFT-Singer作为基础模型：

# 训练FFT-Singer
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config usr/configs/popcs_fs2.yaml --exp_name popcs_fs2_pmf0_1230 --reset

# 使用FFT-Singer进行推理
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config usr/configs/popcs_fs2.yaml --exp_name popcs_fs2_pmf0_1230 --reset --infer

3.2 训练DiffSinger模型

在FFT-Singer基础上，可以开始训练DiffSinger模型：

CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config usr/configs/popcs_ds_beta6_offline.yaml --exp_name popcs_ds_beta6_offline_pmf0_1230 --reset

注意：需要根据实际路径调整配置文件中的"fs2_ckpt"参数。

4. 模型推理与应用

训练完成后，可以使用以下命令进行歌唱声音合成：

CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config usr/configs/popcs_ds_beta6_offline.yaml --exp_name popcs_ds_beta6_offline_pmf0_1230 --reset --infer