Github
WaveGlow
用于语音合成的基于流的生成网络
一种基于流的网络,能够从梅尔谱图生成高质量的语音。WaveGlow 结合了Glow和WaveNet 的见解,以提供快速、高效和高质量的音频合成,无需自动回归。WaveGlow 仅使用单个网络实现,仅使用单个成本函数进行训练:最大化训练数据的可能性,这使得训练过程简单稳定。
我们的PyTorch实现在 NVIDIA V100 GPU 上以 1200 kHz 的速率生成音频样本。平均意见得分表明,它提供的音频质量与公开可用的最佳 WaveNet 实现一样好。
安装
git clone https://github.com/NVIDIA/waveglow.git
cd waveglow
git submodule init
git submodule update
安装要求 pip3 install -r requirements.txt
安装Apex(apex link)