【论文学习笔记】《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》

ParallelWaveNet采用概率密度蒸馏技术,从已训练的WaveNet中高效学习,实现高质量语音合成,速度比WaveNet快1000倍。通过多层逆自回归流和损失函数优化,该方法在多种语言环境下生成的语音更加自然。

Parallel WaveNet 论文学习

  1 简介

        WaveNet 架构是当前语音合成领域中最先进的技术之一。在不同语言下,它合成的声音更为自然。然而,由于 WaveNet 在同一时间只能有序生成一个音频样本,因此难以真正运用到生产环境中。
       
        Parallel WaveNet 这篇论文介绍了一种新的方法:概率密度蒸馏。这种方法可以在生成的语音质量没有显著差异的情况下,通过一个训练好的 WaveNet 去训练一个平行前馈网络。
       
       结果证明, Parallel WaveNet 能以比实时快20倍的速度产生高保真语音样本,这比原来的 WaveNet 要快1000倍。现已能在生产环境中提供多种英语和日语的声音。
       

  2 WaveNet 介绍

        WaveNet 是一个生成原始音频波形的深度神经网络。 WaveNet 是一个完全概率自回归模型,每个音频样本的预测分布取决于之前的所有样本。 WaveNet 可以在每秒数万采样率的音频数据上高效地进行训练。
        (WaveNet 模型详细介绍可参考这篇博客
WaveNet因果卷积原理图
        WaveNet 使用了因果卷积,确保模型输出不会违反数据的顺序,模型在某时刻输出的预测不会依赖任何一个未来时刻的数据。
WaveNet扩大卷积原理图
        WaveNet 还使用了扩大卷积,有效地使网络可以执行粗粒度的卷积操作,扩大了感受野,只通过少数几层便拥有了非常大的感受野(1024个单位)。
       
        WaveNet 运用 SOFTMAX 分布压缩了音频质量,使计算更快捷方便。
       
        WaveNet 使用与gated PixelCNN 中相同的门控激活单元,公式如下所示。
门控激活单元公式
        WaveNet使用了残差和跳步连接,以加速收敛并允许更深的模型训练。该结构示意图如下:
在这里插入图片描述
        Parallel WaveNet 论文的作者对基本的wavenet模型做了两项优化,来提高音频的质量:
              1.使用16bit音频,采样模型替换为离散化混合逻辑斯蒂分布
              2.将16khz的采样率提升到24khz,方法包括提升层数、增加扩张系数等
  &

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值