
论文链接:
https://arxiv.org/abs/2308.16569
代码地址:
https://github.com/thuhcsi/LightGrad
数据支持:
针对BZNSYP和LJSpeech提供训练脚本

针对Grad-TTS提出两个问题:
-
DPMs are not lightweight enough for resource-constrained devices.
-
DPMs require many denoising steps in inference, which increases latency.
提出解决方案:
-
To reduce model parameters, regular convolution networks in diffusion decoder are substituted with depthwise separable convolutions.
-
To accelerate the inference procedure, we adopt a training-free fast sampling technique

本文介绍了一种新的语音合成方法LightGrad,它通过使用深度可分离卷积和训练免费的快速采样技术,相比Grad-TTS在参数减少62.2%、延迟降低65.7%的同时,保持了相近的语音质量。流式方案的应用进一步减少了延迟。
最低0.47元/天 解锁文章
1864

被折叠的 条评论
为什么被折叠?



