语音合成(TTS)论文优选:iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Tim

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform

本文为日本NTT公司在2022.03.04更新的文章,主要使用iSTFT设计快速轻量级的声码器,具体的文章链接https://arxiv.org/pdf/2203.02395.pdf


1 背景

在语音合成和语音转换系统中,Mel-Spectrogram通常用作中间表示,因此基于Mel-Spectrogram的声码器也就成为主流。声码器主要把Mel-Spectrogram转换成raw waveform,其过程跟特征提取是逆过程,具体如图2所示(蓝色箭头为特征提取,红色为声码器)​。因此声码器必须解决三个逆问题:recovery of the original-scale magnitude spectrogram, phase reconstruction, and frequencyto-time conversion​。当前的基于神经网络的声码器以黑盒的方式直接把Mel-Spectrogram转到raw waveform​,但该种方式不能很好利用Mel-Spectrogram中的时频信息​。本文使用iSTFT提出 iSTFTNet声码器,该声码器在保证音频质量情况下使模型更快、更轻量级​。

2 详细设计

如图一所示,原始的神经网络声码器如图a所示,其直接以黑盒的形式把Mel-Spectrogram转到raw waveform​。本文提出的方案是神经网络部分输出幅度谱和相位谱,并使用信号处理的iSTFT来生成raw waveform。本文首先提出iSTFT公式1,其说明上采样网络倍数与​整体的关系,具体可参见图3展示的​系统参数。

3 实验

本文实验实在HIFI-GAN的系统上进行试验,原始的HIFI-GAN提供v1,v2和v3三个版本,其参数默认​,另外提供MB-MelGan和PWG声码器作为对比。声码器结果如table 1所示,本文使用iSTFT在保证音频质量前提下提高合成​速度。table 2展示和声学模型结合的结果,本文使用基于conformer的fastspeech2,其音频质量更高​。

4 总结

本文设计的声码器使用信号处理的iSTFT来合成音频,该声码器在保证音频质量情况下使模型更快、更轻量级。​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值