外语口音转换：基于声学特征合成的语音转换技术教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00004/article/details/139734562

外语口音转换：基于声学特征合成的语音转换技术教程

fac-via-ppg Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams (Interspeech'19) 项目地址: https://gitcode.com/gh_mirrors/fa/fac-via-ppg

1. 项目介绍

本项目实现了论文《通过声学后验图合成语音进行外语口音转换》（Interspeech'19）中的技术。它提供了一种方法，能够将一种语言的发音风格转换成另一种，利用声学后验图(Phonetic Posteriorgrams, PPG)来合成具有目标口音的语音。项目基于Python环境，并依赖于Conda来管理所有必要的依赖项，包括PyTorch等深度学习框架。

2. 快速启动

环境准备

首先，确保安装了Anaconda或Miniconda。接下来，克隆项目仓库并创建运行环境：

git clone https://github.com/guanlongzhao/fac-via-ppg.git
cd fac-via-ppg
conda env create -f environment.yml
conda activate ppg-speech

编译协议缓冲文件，并设置环境变量以访问源码目录：

protoc -I=src/common --python_out=src/common src/common/data_utterance.proto
export PYTHONPATH=$PWD/src:$PYTHONPATH

运行单元测试

确保可执行run_coverage.sh脚本，并执行以完成简单的功能检查：

chmod +x test/run_coverage.sh
./test/run_coverage.sh

3. 应用案例与最佳实践

应用此项目时，您需自定义配置文件中的参数，例如在src/common/hparams.py中调整PPG到Mel谱转换模型的超参数。数据文件列表应按data/filelists中的示例来准备。训练流程涉及两个主要步骤：先训练PPG至Mel模型，然后是WaveGlow模型用于波形生成。

训练PPG至Mel模型示例：

cd src/script
python train_ppg2mel.py

随后，同样方式训练WaveGlow模型：

python train_waveglow.py

生成新的合成语音时，使用预训练模型和指定参数：

python generate_synthesis.py \
    --ppg2mel_model PATH_TO_PPG2MEL_MODEL \
    --waveglow_model PATH_TO_WAVEGLOW_MODEL \
    --teacher_utterance_path PATH_TO_TEACHER_AUDIO \
    --output_dir OUTPUT_DIRECTORY