【论文学习】《Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks》

本文提出了一种名为ParallelWaveGAN的快速、小型化波形生成模型,使用生成式对抗网络(GAN)进行训练,无需密度蒸馏。该模型通过联合优化多分辨率STFT损失和对抗损失,有效捕捉语音时频分布。实验结果显示,ParallelWaveGAN在保持高保真度的同时,训练和推理速度显著提升,与基于蒸馏的ParallelWaveNet相比,生成24kHz语音波形的速度快了28.68倍。在基于Transformer的文本到语音系统中,ParallelWaveGAN达到了4.16的平均意见得分,表现出与最佳蒸馏系统相当的性能。

《Parallel WaveGAN : A fast waveform generation model based on generative adversarial networks with Multi-Resolution Spectrogram》论文学习

  摘要

       我们提出了Parallel WaveGAN,一种使用生成式对抗网络的无蒸馏、快速和占用空间小的波形生成方法。该方法通过联合优化多分辨率谱图和对抗损耗函数来训练非自回归WaveNet,能够有效地捕捉真实语音波形的时频分布。由于我们的方法不需要在传统的师生框架中使用密度蒸馏,整个模型易于训练。此外,我们的模型在结构紧凑的情况下也能生成高保真语音。其中,提出的并行WaveGAN只有1.44M个参数,在单个GPU环境下生成24kHz语音波形的速度比实时速度快28.68倍。感知听力测试结果表明,本文提出的方法在基于Transformer的文本到语音框架中获得了4.16的平均意见得分,与基于蒸馏的最好的Parallel WaveNet系统做出对比。
       
       关键词 - 神经声码器TTSGANParallel WaveNetTransformer
       

  1 介绍

       文本到语音(TTS)框架中的深度生成模型显著提高了合成语音信号的质量(《Statistical parametric speech synthesis using deep neural networks》,《Effective spectral and excitation modeling techniques for LSTM-RNN-based speech synthesis systems》,《Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions》)。值得注意的是,自回归生成模型如WaveNet已经显示出比传统参数声码器更优越的性能(《WaveNet: A generative model for raw audio》,《A comparison of recent waveform generation and acoustic modeling methods for neural-network-based speech synthesis》,《Speaker-dependent WaveNet vocoder》,《An investigation of multi-speaker training for WaveNet vocoder》,《Excitnet vocoder: A neural excitation model for parametric speech synthesis systems》)。然而,由于自回归的特性,其推理速度较慢,因此在实时场景中的应用受到限制。
       
       解决这种局限性的一种方法是利用基于教师-学生框架的快速波形生成方法(《Parallel WaveNet: Fast high-fidelity speech synthesis》,《ClariNet: Parallel wave generation in end-to-end text-to-speech》,《Probability density distillation with generative adversarial networks for high-quality parallel waveform generation》)。在这个框架中,定义为概率密度蒸馏的桥梁将自回归教师WaveNet的知识转移到基于逆自回归流(IAF)的学生模型(《Improved variational inference with inverse autoregressive flow》)。虽然IAF学生能够以合理的感知质量实现实时生成语音,但在训练过程中仍然存在问题:不仅需要一个训练良好的教师模型,还需要一种试错方法来优化复杂的密度蒸馏过程。
       
       为了克服上述问题,我们提出了一种基于生成式对抗网络(generative adversarial network, GAN)(《Generative adversarial nets》)的并行波形生成方法——Parallel WaveGAN。与传统的基于蒸馏的方法不同,Parallel WaveGAN不需要两个阶段,而是连续的教师-学生训练过程。
       该方法仅通过优化多分辨率短时傅里叶变换(STFT)和对抗损失函数的组合来训练非自回归WaveNet模型,使该模型能够有效地捕获真实语音波形的时频分布。因此,整个训练过程比传统方法简单得多,并且模型参数较少,可以产生自然发声的语音波形。我们的贡献总结如下:
       (1)提出了一种多分辨率短时傅立叶变换损耗和波形域对抗损耗的联合训练方法。该方法既适用于传统的基于蒸馏的Parallel WaveNet(如ClariNet),也适用于提出的无蒸馏Parallel WaveGAN
       (2)由于所提出的Parallel WaveGAN可以在没有任何教师-学生框架的情况下进行简单的训练,因此我们的方法大大减少了训练和推理时间。特别是训练过程变得快4.82倍(从13.5天到2.8天,使用两个NVIDIA Telsa V100 GPU)和推理过程变得快1.96倍(从14.6228.68 倍实时速度生成24kHz语音波形,使用单个NVIDIA Telsa V100 GPU),与传统的ClariNet模型相比。
       (3)我们将提出的Parallel WaveGAN与基于TransformerTTS声学模型相结合(《Attention is all you need》,《Neural speech synthesis with Transformer network》,《FastSpeech: Fast, robust and controllable text to speech》)。感知听力测试结果表明,提出的Parallel WaveGAN模型达到了4.16 MOS,与基于蒸馏的ClariNet模型相比具有一定的竞争力。
       

  2 相关工作

       在Parallel WaveNet框架中使用GAN的想法并不新鲜。在我们之前的工作中,IAF学生模型被纳入到生成器中,并通过最小化对抗损失以及Kullback-Leibler散度(KLD)和辅助损失(《Probability density distillation with generative adversarial networks for high-quality parallel waveform generation》)进行联合优化。由于GAN学习了真实语音信号的分布,该方法显著提高了合成信号的感知质量。但基于密度精馏的训练阶段复杂,限制了其应用。
       
       我们的目标是尽量减少训练传统教师-学生框架的两阶段管道的努力。换句话说,我们提出了一种新的方法训练Parallel WaveNet不需要任何蒸馏过程。Juvela等人(《GELP: GAN-excited linear prediction for speech synthesis from melspectrogram》)也提出了类似的方法(例如GAN激发线性预测,GELP),利用对抗式训练方法产生声门刺激。然而,由于GELP需要线性预测(LP)参数来将声门激励转换为语音波形,因此,当LP参数包含TTS声学模型不可避免的误差时,可能会出现质量下降。为了避免这个问题,我们的方法是直接估计语音波形。由于很难捕捉语音信号的动态特性,包括声带运动和声道共振(分别由GELP中的声门兴奋和LP参数表示),我们提出了对抗损耗和多分辨率STFT损耗的联合优化方法,以捕获真实语音信号的时频分布。因此,即使参数较少,整个模型也易于训练,同时有效地减少了推断时间,提高了合成语音的感知质量。
       

  3 方法

    3.1 基于GAN的并行波形生成

       GAN是生成模型,由两个独立的神经网络组成:生成器(G)和鉴别器(D)(《Generative adversarial nets》)。在我们的方法中,一个基于WaveNet型以辅助特征(如梅尔谱图)为条件作为发生器,它将输入噪声并行地转换为输出波形。生成器与原始WaveNet的不同之处在于:(1)我们使用非因果卷积而不是因果卷积;(2)输入为高斯分布的随机噪声;(3)模型在训练和推理阶段都是非自回归的。
       
       发生器学习真实波形的分布,通过试图欺骗鉴别器来识别发生器样本为真实的。这个过程是通过最小化对抗损失(Ladv)来完成的,如下所示:
L a d v ( G , D ) = E z ∼ N ( 0 , I ) [ ( 1 − D ( G ( z ) ) ) 2 ] (1) L_{adv}(G,D)=\mathbb{E}_{z\sim N(0,I)}[(1-D(G(z)))^2] \tag{1} Ladv(G,D)=EzN(0,I)[(1D(G(z)))2](1)       其中 z z z为输入白噪声。注意,为了简洁, G G G的辅助特性被省略了。
       
       另一方面,利用以下优化准则训练鉴别器,在将ground truth分类为真实的同时,将生成的样本正确分类为假样本:
L D ( G , D ) = E x ∼ p d a t a [ ( 1 − D ( x ) ) 2 ] + E z ∼ N ( 0 , I ) [ ( 1 − D ( G ( z ) ) ) 2 ] (2) L_{D}(G,D)=\mathbb{E}_{x\sim p_{data}}[(1-D(x))^2]+ \mathbb{E}_{z\sim N(0,I)}[(1-D(G(z)))^2] \tag{2} LD(G,D)=Expdata[(1

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值