声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform
本文为日本NTT公司在2022.03.04更新的文章,主要使用iSTFT设计快速轻量级的声码器,具体的文章链接https://arxiv.org/pdf/2203.02395.pdf
1 背景
在语音合成和语音转换系统中,Mel-Spectrogram通常用作中间表示,因此基于Mel-Spectrogram的声码器也就成为主流。声码器主要把Mel-Spectrogram转换成raw waveform,其过程跟特征提取是逆过程,具体如图2所示(蓝色箭头为特征提取,红色为声码器)。因此声码器必须解决三个逆问题:recovery of the original-scale magnitude spectrogram, phase reconstruction, and frequencyto-time conversion。当前的基于神经网络的声码器以黑盒的方式直接把Mel-Spectrogram转到raw waveform,但该种方式不能很好利用Mel-Spectrogram中的时频信息。本文使用iSTFT提出 iSTFTNet声码器,该声码器在保证音频质量情况下使模型更快、更轻量级。
2 详细设计
如图一所示,原始的神经网络声码器如图a所示,其直接以黑盒的形式把Mel-Spectrogram转到raw waveform。本文提出的方案是神经网络部分输出幅度谱和相位谱,并使用信号处理的iSTFT来生成raw waveform。本文首先提出iSTFT公式1,其说明上采样网络倍数与整体的关系,具体可参见图3展示的系统参数。
3 实验
本文实验实在HIFI-GAN的系统上进行试验,原始的HIFI-GAN提供v1,v2和v3三个版本,其参数默认,另外提供MB-MelGan和PWG声码器作为对比。声码器结果如table 1所示,本文使用iSTFT在保证音频质量前提下提高合成速度。table 2展示和声学模型结合的结果,本文使用基于conformer的fastspeech2,其音频质量更高。
4 总结
本文设计的声码器使用信号处理的iSTFT来合成音频,该声码器在保证音频质量情况下使模型更快、更轻量级。