论文笔记:WaveNet: A Generative Model For Raw Audio

WaveNet是一种用于生成原始音频的深度学习模型,旨在使合成语音听起来更自然流畅。它不仅能实现高质量的文本到语音转换,还能用于语音转换、音乐生成及音频辨识。模型基于因果卷积和扩展卷积等技术,通过残差和跳过连接优化训练过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

WaveNet: A Generative Model For Raw Audio

目的主要是:生成的语音听起来比其他的tts方法更流畅。
还可以实现:文本到语音,语音转换,生成音乐,辨别
其实就是提供了一个通用的网络,加以改造就能够完成不同的任务

相关的知识:
PixelCnn 用于图片生成的cnn
casual convolution 因果卷积
dilated convolution 扩展卷积
gated activation
residual and skip connection
残差神经网络ResNet:
https://blog.youkuaiyun.com/qq_40027052/article/details/78261737
http://www.itboth.com/d/iqyQF3/resnet-connection-skip
skip connection是残差神经网络的连接方式
https://www.jianshu.com/p/09643588f373

论文的中文翻译:
https://my.oschina.net/stephenyng/blog/1621584

论文的blog:
https://deepmind.com/blog/wavenet-generative-model-raw-audio/

论文中提到的文本转语音的方法(先使用tts模型),论文中gate的操作原因:
https://www.zhihu.com/question/56017966/answer/253599651

论文一般模型的输入输出:
https://www.cnblogs.com/seanliao/p/9595536.html

语音合成发展:
https://www.sohu.com/a/119298142_491255

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值