Parallel WaveNet 论文学习
1 简介
WaveNet 架构是当前语音合成领域中最先进的技术之一。在不同语言下,它合成的声音更为自然。然而,由于 WaveNet 在同一时间只能有序生成一个音频样本,因此难以真正运用到生产环境中。
Parallel WaveNet 这篇论文介绍了一种新的方法:概率密度蒸馏。这种方法可以在生成的语音质量没有显著差异的情况下,通过一个训练好的 WaveNet 去训练一个平行前馈网络。
结果证明, Parallel WaveNet 能以比实时快20倍的速度产生高保真语音样本,这比原来的 WaveNet 要快1000倍。现已能在生产环境中提供多种英语和日语的声音。
2 WaveNet 介绍
WaveNet 是一个生成原始音频波形的深度神经网络。 WaveNet 是一个完全概率自回归模型,每个音频样本的预测分布取决于之前的所有样本。 WaveNet 可以在每秒数万采样率的音频数据上高效地进行训练。
(WaveNet 模型详细介绍可参考这篇博客)

WaveNet 使用了因果卷积,确保模型输出不会违反数据的顺序,模型在某时刻输出的预测不会依赖任何一个未来时刻的数据。

WaveNet 还使用了扩大卷积,有效地使网络可以执行粗粒度的卷积操作,扩大了感受野,只通过少数几层便拥有了非常大的感受野(1024个单位)。
WaveNet 运用 SOFTMAX 分布压缩了音频质量,使计算更快捷方便。
WaveNet 使用与gated PixelCNN 中相同的门控激活单元,公式如下所示。

WaveNet使用了残差和跳步连接,以加速收敛并允许更深的模型训练。该结构示意图如下:

Parallel WaveNet 论文的作者对基本的wavenet模型做了两项优化,来提高音频的质量:
1.使用16bit音频,采样模型替换为离散化混合逻辑斯蒂分布
2.将16khz的采样率提升到24khz,方法包括提升层数、增加扩张系数等
&

ParallelWaveNet采用概率密度蒸馏技术,从已训练的WaveNet中高效学习,实现高质量语音合成,速度比WaveNet快1000倍。通过多层逆自回归流和损失函数优化,该方法在多种语言环境下生成的语音更加自然。
最低0.47元/天 解锁文章
4919

被折叠的 条评论
为什么被折叠?



