语音信号处理论文优选:Handling Background Noise in Neural Speech Generation

声明:语音信号处理(DSP)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Handling Background Noise in Neural Speech Generation

本文章是google在2021.02.23更新的文章,主要研究在语音编码器如何处理背景噪声,使声码器合成的语音质量更高。具体的文章链接

https://arxiv.org/pdf/2102.11906.pdf

(此类文章Wie经验分享类)

1 研究背景

低码率的语音编码器(语音编码器可参考http://www.ece.ubc.ca/~brucew/ebook/VOIP/004.pdf)由于基于神经网络的声码器的发展音质得到巨大提高。当输入的语音存有噪声的时候,语音编码器的音质将会下降,因此本文实验如何来处理该噪声,使合成的音质更高。

2 详细设计

本文主要在声码器前端加入denoiser模型来去噪。其实验主要对比以下5种方案:

1)c2c: clean-to-clean

2) n2n: noise-to-noisy

3) n2c: noise-to-clean

4) dc2c:在c2c前边使用denoiser模型进行处理

5) dn2n:在n2n前边使用denoiser模型进行处理

其中本文设计的声码器waveGRU如图1所示,其中encoder是把波形转成log melspectra,decoder把log melspectra转成语音波形。denoiser的模型TASNet如图2所示。

3 实验

实验先对比clean和noise的MOS值,clean的较高(图3)。以上几种方案的对比结果如下:

1)c2c: 可以很好处理clean的语音,但不能处理带噪的语音;

2)n2n:可以提高带噪语音质量,但牺牲了干净语音质量;

3)n2c:可以提高带噪语音质量,但会造成音素丢失;

4)dc2c:可以很好处理干净和带噪数据;

table1在n2n上展示使用denoiser具有提高音质效果。

4 总结

本文采用不同策略来处理神经网络噪声,使其可以很好的处理干净和带噪数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值