【论文学习笔记】《StarGAN-VC: Non-Parallel M2M Voice Conversion With Star Generative Adversarial Networks》

最新推荐文章于 2024-07-10 19:54:46 发布

原创

最新推荐文章于 2024-07-10 19:54:46 发布 · 2.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#StarGAN-VC #VoiceConversion #Many-to-Many #神经网络 #深度学习

提出了一种非并行多对多语音转换方法StarGAN-VC，该方法不需要平行数据，使用单个生成器网络实现多对多映射，能实时产生高质量语音。

《StarGAN-VC: Non-Parallel Many-To-Many Voice Conversion With Star Generative Adversarial Networks》论文学习

文章目录

《StarGAN-VC: Non-Parallel Many-To-Many Voice Conversion With Star Generative Adversarial Networks》论文学习

摘要

本文提出了一种允许非并行多对多语音转换( VC )的方法，通过使用生成式对抗网络( GAN )的一个变体，称为 StarGAN 。
我们的方法 StarGAN-VC 值得注意的是
(1) 要求没有平行的话语，转录，或时间校准程序的语音发生器训练
(2) 使用单个生成器网络，同时学习跨不同属性域的多对多映射
(3) 能够产生转换语音信号足够快，允许实时实现
(4) 只需要几分钟的训练例子，就可以产生合理逼真的听起来的语音
基于非并行多对多说话人身份转换任务的主观评价实验表明，该方法比基于变分自编码的 GANs 方法获得了更高的音质和说话人相似度。

索引术语 —— 语音转换( VC ) ，非并行 VC ，多到多 VC ，生成对抗网络( GANs ) ， CycleGAN-VC ， StarGAN-VC

1 介绍

语音转换( VC )是在保留语言信息的同时，对给定话语中包含的非语言信息进行转换的一种技术。
该技术可应用于各种任务，如文本到语音( TTS )系统(《Spectral voice conversion for textto-speech synthesis》)的说话人身份修改、说话辅助(《Improving the intelligibility of dysarthric speech》，《Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech》)、语音增强(《Data-driven emotion conversion in spoken English》，《Evaluation of expressive speech synthesis with voice conversion and copy resynthesis techniques》，《Statistical voice conversion techniques for body-conducted unvoiced speech enhancement》)和发音转换(《Sequence-to-sequence voice conversion with similarity metric learned using generative adversarial networks》)。

一个成功的 VC 框架涉及到基于高斯混合模型( GMMs )的统计方法(《Continuous probabilistic transform for voice conversion》，《Voice conversion based on maximumlikelihood estimation of spectral parameter trajectory》，《Voice conversion using partial least squares regression》)。
最近，一种基于前馈深度神经网络的神经网络( NN )框架(《Spectral mapping using artificial neural networks for voice conversion》，《Voice conversion using deep neural networks with speaker-independent pre-training》，《Voice conversion using input-to-output highway networks》)、递归神经网络(《Voice conversion using deep bidirectional long short-term memory based recurrent neural networks》)、生成对抗网络( GANs )(《Sequence-to-sequence voice conversion with similarity metric learned using generative adversarial networks》)，以及一种基于非负矩阵分解( NMF )的范例框架(《Exemplar-based voice conversion using sparse representation in noisy environments》，《Exemplar-based sparse representation with residual compensation for voice conversion》)也被证明是成功的。

包括上述在内的许多传统 VC 方法都需要对源语音和目标语音数据进行精确对齐。
然而，在许多情况下，并不总是可能收集到平行的话语。
即使我们能够收集到这样的数据，我们通常也需要执行时间对齐程序，当源和目标语音之间存在较大的声间隙时，这变得相对困难。
由于许多框架在使用并行数据时发现的偏差方面是薄弱的，为了使这些框架可靠地工作，可能需要仔细的预筛选和手动校正。
为了绕过这些限制，本文考虑开发一个非并行 VC 方法，它不需要平行的话语，转录，或时间对齐程序。

一般来说，由于训练条件的限制，非并行方法得到的质量和转换效果与使用并行数据的方法相比是有限的。
因此，开发具有与并行方法一样高的音频质量和转换效果的非并行方法是非常具有挑战性的。
最近，有人尝试发展非并行方法(《Voice conversion using deep neural networks with layer-wise generative training》，《Voice conversion based on speaker-dependent restricted Boltzmann machines》，《High-order sequence modeling using speaker-dependent recurrent temporal restricted Boltzmann machines for voice conversion》，《Parallel-data-free, many-to-many voice conversion using an adaptive restricted Boltzmann machine》，《Modeling and transforming speech using variational autoencoders》，《Voice conversion from non-parallel corpora using variational Preference score (%) auto-encoder》，《Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks》，《A KL divergence and DNNbased approach to voice conversion without parallel training sentences》，《Non-parallel voice conversion using i-vector PLDA: Towards unifying speaker verification and transformation》，《Parallel-data-free voice conversion using cycle-consistent adversarial networks》，《Neural discrete representation learning》，《Parallel-data-free many-to-many voice conversion based on dnn integrated with eigenspace using a non-parallel speech corpus》，《Parallel-data-free many-to-many voice conversion based on dnn integrated with eigenspace using a non-parallel speech corpus》)。
例如，在(《A KL divergence and DNNbased approach to voice conversion without parallel training sentences》)中提出了一种使用自动语音识别( ASR )的方法。
其思想是在保留 ASR 系统声学模型的后验状态概率的限制下对输入语音进行转换，使转换后的语音的转录与输入语音的转录保持一致。
由于这种方法的性能在很大程度上取决于 ASR 声学模型的质量，因此，如果 ASR 不能可靠地工作，这种方法可能无法工作。
最近在(《Non-parallel voice conversion using i-vector PLDA: Towards unifying speaker verification and transformation》)中提出了一种使用 i 向量(《Front-end factor analysis for speaker verification》)的方法，被称为说话人验证的特征。
从概念上讲，该思想是将输入语音的声学特征在 i 向量空间中转移到目标语音，以便转换后的语音很可能被说话人识别器识别为目标说话人。
虽然这种方法也不需要并行数据，但一个限制是它只适用于说话者身份转换任务。

最近，(《Voice conversion from non-parallel corpora using variational Preference score (%) auto-encoder》，《Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors》)提出了一种基于条件变分自编码器( CVAEs )的框架(《Auto-encoding variational Bayes》，《Semi-supervised learning with deep generative models》)。
顾名思义，变分自编码器( VAEs )是自编码器( AEs )的概率对等物，由编码器和解码器网络组成。
CVAEs (《Semi-supervised learning with deep generative models》)是 VAEs 的扩展版本，编码器和解码器网络可以接受一个辅助变量 c 作为额外的输入。
通过使用声学特征作为训练例，相关的属性标签作为 c ，网络学习如何根据输入到解码器的属性标签将源语音的属性转换为目标属性。
这种基于 CVAEs 的 VC 方法值得注意的是，它完全不需要并行数据，甚至可以与未对齐的语料库一起工作。
然而，关于 VAEs 的一个众所周知的问题是解码器的输出往往过于平滑。
对于 VC 应用程序，这可能是有问题的，因为它通常会导致低质量的嗡嗡声。

GANs (《Generative adversarial nets》)是一个强大的框架，可以潜在地克服 VAEs 的弱点。
GANs 提供了一个通用框架来训练一个生成器网络，以使它能够欺骗一个真/假鉴别器网络。
虽然它们被发现可以有效地用于图像生成，但近年来，它们也被用于各种语音处理任务，取得了显著的成功(《Sequence-to-sequence voice conversion with similarity metric learned using generative adversarial networks》，《Generative adversarial network-based postfilter for statistical parametric speech synthesis》，《Statistical parametric speech synthesis incorporating generative adversarial networks》，《SEGAN: Speech enhancement generative adversarial network》，《Generative adversarial network-based postfilter for STFT spectrograms》，《Generative adversarial network-based approach to signal reconstruction from magnitude spectrograms》)。
我们之前报道了一种非并行 VC 方法，使用一种被称为循环一致 GAN ( CycleGAN )(《Parallel-data-free voice conversion using cycle-consistent adversarial networks》)的 GAN 变体，它最初被提出作为一种使用未配对训练示例翻译图像的方法(《Unpaired image-to-image translation using cycle-consistent adversarial networks》，《Learning to discover cross-domain relations with generative adversarial networks》，《DualGAN: Unsupervised dual learning for image-to-image translation》)。
这种方法,我们称之为 CycleGAN-VC ，旨在学习声学特性从一个属性 X 的映射 G 到另一个属性 Y ，它的逆映射 F ，和一个鉴别器 D ，其作用是区分转换语音的声学特性和那些真正的语句，通过培训损失结合一个对抗的丧失和一个周期的一致性。
尽管这种方法工作得相当好，但一个主要的限制是它只学习一对一的映射。
在很多 VC 应用场景中，获取多对多映射是很理想的。
将 CycleGAN 应用于多对多 VC 任务的一种简单方法是为所有属性域对训练不同的 G 和 F 对。
然而，这可能是无效的，因为所有属性域都是共同的，它们表示语音，因此必须有一些共同的潜在特征可以在不同的域之间共享。
在实践中，参数的数量会随属性域的数量呈二次增长，这使得参数训练具有挑战性，特别是当每个域的训练实例数量有限时。

CVAE-VC 和 CycleGAN-VC 的一个常见限制是，在测试时必须知道输入语音的属性。
对于 CVAE-VC ，必须将源属性标签 c 输入训练后的 CVAE 的编码器中，使用 CycleGAN-VC ，训练和测试时的源属性域必须相同。

为了克服 CVAE-VC (《Voice conversion from non-parallel corpora using variational Preference score (%) auto-encoder》)和 CycleGAN-VC (《Parallel-data-free voice conversion using cycle-consistent adversarial networks》)的缺点和局限性，本文利用新近提出的一种新的 GAN 变体 StarGAN (《StarGAN: Unified generative adversarial networks for multidomain image-to-image translation》)提出了一种非并行多对多 VC 方法，该方法同时具有 CVAE-VC 和 CycleGAN-VC 的优点。
与 CycleGAN-VC 和 CVAE-VC 不同，我们的方法(我们称为 StarGAN-VC )能够使用单个编码器解码器类型生成器网络 G 同时学习多对多映射，其中生成器输出的属性由辅助输入 c 控制。
与 CVAE-VC 和 CycleGAN-VC 不同， StarGAN-VC 使用对位损失进行生成器训练，以鼓励生成器输出与真实语音无法区分，并确保每对属性域之间的映射将保留语言信息。
同样值得注意的是，与 CVAE-VC 和 CycleGAN-VC 不同， StarGAN-VC 在测试时不需要关于输入语音属性的任何信息。

VAE-GAN 框架(《Autoencoding beyond pixels using a learned similarity metric》)可能是克服 VAEs 弱点的另一种自然方式。
在(《Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks》)中提出了一种基于此框架的非并行 VC 方法。
通过这种方法，使用 GAN 鉴别器产生的对抗损失被纳入训练损失中，以鼓励 CVAE 的解码器输出与真实的语音特征无法区分。
虽然这个概念与我们的 StarGAN-VC 方法相似，但我们将在第 4 节中展示我们的方法在音频质量和转换效果方面优于这种方法。

另一个值得注意的相关技术是矢量量化 VAE ( VQ-VAE )方法(《Neural discrete representation learning》)[27]，它在非并行 VC 任务中表现令人印象深刻。
该方法特别值得注意的是，它提供了一种克服 VAEs 缺点的新方法，它使用 WaveNet 网络模型(《WaveNet: A generative model for raw audio》)(一个逐样本神经信号发生器)来设计 CVAEs 的离散版本的编码器和解码器。
原始的 WaveNet 模型是一个递归模型，它可以根据生成器产生的样本来预测样本的分布。
虽然最近已经提出了一个更快的版本(《Parallel WaveNet: Fast high-fidelity speech synthesis》)，但它通常需要巨大的计算成本来生成样本流，这可能会在实现实时系统时造成困难。
众所周知，该模型需要大量的训练示例才能生成听起来自然的语音。
相比之下，我们的方法值得注意的是，它能够产生足够快的信号，允许实时实现，并且只需要几分钟的训练示例就可以产生听起来相当真实的语音。

本文的其余部分组织如下。
我们在第 2 节简要回顾了 CycleGAN-VC 的公式，在第 3 节提出了 StarGAN-VC 的思想，在第 4 节展示了实验结果。

2 CYCLEGAN 声音转换

由于本方法是我们之前提出的 CycleGAN-VC (《Parallel-data-free voice conversion using cycle-consistent adversarial networks》)的扩展，我们首先简要回顾其公式。

使 $x\in\mathbb{R}^{Q \times N}$ 和 $y\in\mathbb{R}^{Q \times M}$ 为语音的声学特征序列，分别属于属性域 $X$ 和 $Y$ ，其中 $Q$ 为特征维数， $N$ 和 $M$ 为序列的长度。
CycleGAN-VC 的目标是学习将 $x$ 的属性转换为 $Y$ 的映射 $G$ 和做相反的映射 $F$ 。
现在，我们引入判别器 $D_X$ 和 $D_Y$ ，它们的作用是预测它们的输入是否是属于 $X$ 和 $Y$ 的真实语音的声学特征，并定义