声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Lightweight LPCNet-based Neural Vocoder with Tensor Decomposition
本文章是日本NTT公司在interspeech2020发表的文章,主要工作使用张量分解方法来优化声码器lpcnet,整体加速1.26x,具体的文章链接
1 研究背景
现在语音合成领域的主流声码器为wavenet,wavernn,lpcnet,melgan,waveglow等等,其中lpcnet由于低复杂度受到工业界和学术界的追捧。其中lpcnet的结构图为图1所示,做语音研究对其非常熟悉,在此不再浪费篇幅进行介绍,有兴趣的读者可以参考我前边总结的lpcnet。接下来说一下本文的动机,整个系统时间开销如图2所示,98.2%的时间开销在decoder中,另外grua层已经使用稀疏化进行优化后,decoder的中的grub+dualfc的时间开销占比48.2%,这也是本文优化的目标。