【论文学习笔记】《WaveNet: A generative model for raw audio》

本文围绕WaveNet论文展开学习。WaveNet是生成原始音频波形的深度神经网络,可在高采样率音频数据上高效训练。其应用于语音合成、识别与音乐合成。模型运用因果卷积、扩大卷积等结构,还介绍了SOFTMAX分布、门控激活单元等。实验内容可查看项目主页,该模型在多方面表现出色。

WaveNet论文学习

   摘要

       WaveNet是一个生成原始音频波形的深度神经网络。WaveNet是一个完全概率自回归模型,每个音频样本的预测分布取决于之前的所有样本。WaveNet可以在每秒数万采样率的音频数据上高效地进行训练。
       

   应用方向

       这篇论文研究了WaveNet在三个方向的应用:语音合成、语音识别与音乐合成。
       
       在语言合成方向:WaveNet获得了当前业界最佳的性能。WaveNet测试了英语和普通话的语音合成,并于此前效果最好的两种方式:参数式与拼接式进行了对比。主观评价表明:WaveNet在自然度上有大幅度的提升。
       
       在语音识别方向:WaveNet可以以相同的保真度捕获很多说话人的特征,并可以针对说话者进行训练后在多人之间切换语音特征。
       
       在音乐合成方向:WaveNet可以产生新颖的高度真实的音乐片段,且在判别模型应用在音素识别中有客观的前景。
       

   模型结构

      1.WaveNet运用了因果卷积与扩大卷积。

因果卷积示意图
       因果卷积确保了模型输出不会违反数据的顺序,模型在某时刻输出的预测不会依赖任何一个未来时刻的数据。
       
       且在训练阶段,每个时刻的输出需要计算的样本都是已知

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值