【论文学习笔记】《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》

最新推荐文章于 2025-10-25 15:44:17 发布

原创

最新推荐文章于 2025-10-25 15:44:17 发布 · 1.7k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#google wave #深度学习 #并行计算 #cv #人工智能

ParallelWaveNet采用概率密度蒸馏技术，从已训练的WaveNet中高效学习，实现高质量语音合成，速度比WaveNet快1000倍。通过多层逆自回归流和损失函数优化，该方法在多种语言环境下生成的语音更加自然。

Parallel WaveNet 论文学习

文章目录

Parallel WaveNet 论文学习

1 简介

WaveNet 架构是当前语音合成领域中最先进的技术之一。在不同语言下，它合成的声音更为自然。然而，由于 WaveNet 在同一时间只能有序生成一个音频样本，因此难以真正运用到生产环境中。

Parallel WaveNet 这篇论文介绍了一种新的方法：概率密度蒸馏。这种方法可以在生成的语音质量没有显著差异的情况下，通过一个训练好的 WaveNet 去训练一个平行前馈网络。

结果证明， Parallel WaveNet 能以比实时快20倍的速度产生高保真语音样本，这比原来的 WaveNet 要快1000倍。现已能在生产环境中提供多种英语和日语的声音。

2 WaveNet 介绍

WaveNet 是一个生成原始音频波形的深度神经网络。 WaveNet 是一个完全概率自回归模型，每个音频样本的预测分布取决于之前的所有样本。 WaveNet 可以在每秒数万采样率的音频数据上高效地进行训练。
（WaveNet 模型详细介绍可参考这篇博客）
WaveNet因果卷积原理图
WaveNet 使用了因果卷积，确保模型输出不会违反数据的顺序，模型在某时刻输出的预测不会依赖任何一个未来时刻的数据。
WaveNet扩大卷积原理图
WaveNet 还使用了扩大卷积，有效地使网络可以执行粗粒度的卷积操作，扩大了感受野，只通过少数几层便拥有了非常大的感受野（1024个单位）。

WaveNet 运用 SOFTMAX 分布压缩了音频质量，使计算更快捷方便。

WaveNet 使用与gated PixelCNN 中相同的门控激活单元，公式如下所示。
门控激活单元公式
WaveNet使用了残差和跳步连接，以加速收敛并允许更深的模型训练。该结构示意图如下：
在这里插入图片描述
Parallel WaveNet 论文的作者对基本的wavenet模型做了两项优化，来提高音频的质量：
1.使用16bit音频，采样模型替换为离散化混合逻辑斯蒂分布
2.将16khz的采样率提升到24khz，方法包括提升层数、增加扩张系数等
&

最低0.47元/天解锁文章