语音合成(speech synthesis)方向三:声码器lpcnet系列

本文主要探讨了LPCNet声码器在语音合成中的应用,包括通过线性预测改进神经语音合成,提高音质的策略,以及效率提升的方法,如多采样和多频带技术。作者强调了对DSP技术的深入理解对于优化声码器的重要性,并提到了相关研究论文。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进。如转载,请标明出处。欢迎关注微信公众号:低调奋进

目录

1 背景

2 研究情况

2.1 Lpcnet

2.2 音质的提高

2.3 效率的提升策略之多采样(multi-sampling)

2.4 效率的提升策略之多频带(multiband)

3 总结

4 引用


1 背景

TTS的工作主要是把文本信息转成音频信息,其大致流程分为前端处理和后端处理两个部分。前端的工作主要是语言领域的处理,主要包括分句、文本正则、分词、韵律预测、拼音预测(g2p),多音字等等。后端的主要工作是把前端预测的语言特征转成音频的时域波形,大体包括声学模型和声码器,其中声学模型是把语言特征转成音频的声学特征,声码器的主要功能是把声学特征转成可播放的语音波形。声码器的好坏直接决定了音频的音质高低,尤其是近几年来基于神经网络声码器的出现,使语音合成的质量提高一个档次。目前,声码器大致可以分为基于相位重构的声码器和基于神经网络的声码器。基于相位重构的声码器主要因为TTS使用的声学特征(mel特征等等)已经损失相位特征,因此使用算法来推算相位特征,并重构语音波形。基于神经网络的声码器则是直接把声学特征和语音波形做mapping,因此合成的音质更高。目前,比较流行的神经网络声码器主要包括wavenet、wavernn、melgan、waveglow、fastspeech和lpcnet等等。其中,lpcent兼具复杂度低,合成音质高等优点,因此受到学术界和工业界的关注。本文主要关注lpcnet声码器的发展动向,对具有代表性的几篇文章进行总结。(本文稍长,还请读者耐心阅读,如有错误,还望指出)

2 研究情况

到目前为止,研究lpcnet的文章很多,主要研究两个维度:提高音质和降低复杂度。其采用的策略大致包括LP-MDN,gmm采样,multi-sampling多采样,multiband等等(其中lpcnet系统自带的稀疏化等策略,我们不再关注讲解)。本文根据采取的优化策略选取以下6篇具有代表性的文章:

1)LPCNet: Improving Neural Speech Synthesis Through Linear Prediction

2)Improving LPCNet-based Text-to-Speech with Linear Prediction-structured Mixture Density Network

3)Gaussian Lpcnet for Multisample Speech Synthesis

4)Bunched LPCNet : Vocoder for Low-cost Neural Text-To-Speech Systems

5)FeatherWave: An efficient high-fidelity neural vocoder with multi-band linear prediction

6)  An Efficient Subband Linear Prediction for LPCNet-based Neural Synthesis

接下来的主要组织结构:2.1小节回顾原始的Lpcnet系统,主要文章1;2.2小节为音质的提高策略,主要包括文章2(这个不能严格说那些策略只提升性能或者质量,后边加速策略multiband不仅可以提高性能,音质也提高不少);2.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值