【论文学习笔记】《AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss》-优快云博客

AUTOVC是一种非并行多对多语音转换算法，仅使用自动编码器损失进行训练，实现了零样本语音转换。通过精心设计的信息限制，它能在不牺牲重构质量的情况下去除源说话人的风格信息，从而达到分布匹配的转换。在VCTK语料库上的实验显示，AUTOVC在传统多对多转换和零样本转换任务上均优于现有方法，其自然度接近并行转换系统，且在未见过的说话人之间转换时表现出良好的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss》论文学习

文章目录

《AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss》论文学习

摘要

非并行多对多语音转换，以及零样本语音转换，仍然是未开发的领域。
深度传递算法，如生成对抗网络( GAN )和条件变分自编码( CVAE )，作为这一领域的新解决方案正在得到应用。
然而， GAN 训练是复杂和困难的，并没有强有力的证据表明其生成的语音具有良好的感知质量。
另一方面， CVAE 训练简单，但不具有 GAN 的分布匹配特性。
在本文中，我们提出了一种新型的传输方案，它只涉及一个具有精心设计的限制器的自动编码器。
我们正式证明了该方案仅在自构造损失的基础上通过训练就能实现分布匹配风格的迁移。
在此基础上，我们提出了基于非并行数据的多对多语音转换技术，并首次实现了零样本语音转换。

1 介绍

在动作电影和小说电影中，用别人的声音说话的想法永远都是一个吸引人的元素，它也在许多实际应用中找到了方法，例如隐私和身份保护，创意产业等。
在语音研究领域，这个任务被称为语音转换问题，它涉及到修改来自源说话人的给定语音，以匹配目标说话人的声音质量。

尽管在语音转换方面的研究仍在继续，但仍有三个问题有待探索。
首先，大多数语音转换系统都假定有并行训练数据，即两个说话人说出相同句子的语音对。只有少数能够接受非并行数据的训练。
其次，在少数处理非并行数据的现有算法中，能够用于多对多转换的算法就更少了，即从多个源说话人转换为多个说话人。
最后但并非最不重要的是，没有语音转换系统能够执行零样本转换，即仅通过观察一个未见过的说话人的少数话语就转换成他/她的声音。

随着深层风格转换的发展，传统的语音转换问题正被重新定位为风格转换问题，将音质视为风格，将说话人视为领域。
有许多风格的传输算法不需要并行数据，并且适用于多个领域，因此它们很容易作为语音转换的新解决方案。
特别是生成式对抗网络( GAN ) (《Generative adversarial nets》)和条件变分自编码器( CVAE ) (《Auto-encoding variational bayes》，《Semi-supervised learning with deep generative models》)，在语音转换中越来越受欢迎。

然而， GAN 和 CVAE 都不是完美的。
GAN 给出了一个很好的理论证明，生成的数据将与真实数据的分布相匹配，并取得了最先进的结果，特别是在计算机视觉方面。
然而，人们普遍认为 GAN 是很难训练的，并且它的收敛性是脆弱的。
此外，尽管有越来越多的研究将 GAN 引入语音生成(《Adversarial audio synthesis》)和语音域转移(《Segan: Speech enhancement generative adversarial network》，《Generative adversarial source separation》，《SVSGAN: Singing voice separation via generative adversarial network.》，《A multi-discriminator cyclegan for unsupervised nonparallel speech domain adaptation》)，没有强有力的证据表明生成的语音听起来真实。
能够糊弄辨别器的声音，还没有糊弄人的耳朵。
另一方面， CVAE 更容易训练。
它所需要做的就是进行自我重构，最大化输出概率的变分下界。
直观的感觉是推断出一个假设的与样式无关的隐藏变量，然后将其与新的样式信息结合起来，生成样式传递的输出。
然而， CVAE 本身并不能保证分布匹配，而且转换输出往往过平滑(《Stargan-vc: Non-parallel many-to-many voice conversion with star generative adversarial networks》)。

由于缺乏合适的风格转换算法，现有的语音转换系统还没有产生令人满意的效果，这自然地引出了以下问题。
是否有一种风格转换算法，可以证明与 GAN 的分布相匹配，可以像 CVAE 一样容易训练，并且对语音更有效？

在此基础上，本文提出了一种新的样式传输方案，它只涉及一个带有精心设计的限制器的普通自动编码器。
与 CVAE 相似，该方案只需要对自我重建损失进行训练，但具有类似 GANs 的分布匹配特性。
这是因为，正确设计的限制器将学会从源头上去除风格信息，获得风格独立的编码，这是 CVAE 的目标，但 CVAE 的培训方案并不能保证。

在此基础上，我们提出了一种无并行数据的多对多语音传输算法 —— AUTOVC 。
AUTOVC 遵循自动编码器框架，只对自动编码器损耗进行训练，但它引入了精心调整的降维和时间下采样来约束信息流。
正如我们将展示的那样，这个简单的方案带来了显著的性能提高。
在传统的多对多转换任务中， AUTOVC 实现了优越的性能，其中所有的说话人都可以在训练集中看到。
此外，还配备了一个经过训练的说话人嵌套表来验证说话人 (《End-to-end text-dependent speaker verification》，《Generalized end-to-end loss for speaker verification》)， AUTOVC 在执行零样本语音转换的良好性能方面表现优异。
考虑到结果的质量和训练方案的简单性， AUTOVC 为更简单更好的语音转换和一般风格转换系统开辟了一条新的道路。该实现将向公众开放。

2 相关工作

利用 VAE 进行非并行多对多语音转换并将其与对抗性训练相结合，已有若干研究成果。
VAE-VC (《Voice conversion from non-parallel corpora using variational auto-encoder》)是一种使用 VAE 的简单语音转换系统。之后，研究主要集中在如何从 VAE 代码中去除风格信息上。
之后，研究主要集中在如何从 VAE 代码中去除风格信息上。
VAW-GAN (《Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks》)在 VAE 输出上引入 GAN 。
CDVAE-VC (《Voice conversion based on cross-domain features using variational auto encoders》)在两个光谱特征上引入两个 VAEs ，并迫使两个特征的潜码包含相似的信息。
ACVAE-VC (《Acvaevc: Non-parallel many-to-many voice conversion with auxiliary classifier variational autoencoder》)在输出上引入辅助分类器，以鼓励转换结果被正确分类为目标说话者的话语。
(《Multitarget voice conversion without parallel data by adversarially learning disentangled audio representations》)在代码上引入一个分类器，在输出上引入一个 GAN 。
同样， StarGAN (《Parallel-data-free voice conversion using cycle-consistent adversarial networks》)和 CycleGAN (《Unpaired image-to-image translation using cycle-consistent adversarial networks》)，由带有 GAN 的编码器-解码器架构组成，应用于语音转换(《Stargan-vc: Non-parallel many-to-many voice conversion with star generative adversarial networks》，《High-quality nonparallel voice conversion based on cycle-consistent adversarial network》)。
GAN 单独也应用于语音转换(《Voice impersonation using generative adversarial networks》)。
然而，这些算法的转换质量仍然有限。
引入文本转录来辅助潜码的学习(《A KL divergence and DNN-based approach to voice conversion without parallel training sentences.》，《Nonparallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors》，《Parrotron: An end-to-end speech-to-speech conversion model and its applications to hearing-impaired speech and speech separation》)，但我们将关注不需要文本转录的语音转换，这对于低资源语言更灵活。

(《Look ma, no GANs! image transformation with modifAE, 2019》，《Multitarget voice conversion without parallel data by adversarially learning disentangled audio representations》，《Unsupervised singing voice conversion》)利用自动编码器进行了风格转换的研究，但没有人通过适当设计限制器来揭示其分布匹配特性。

3 风格转移自动编码器

在本节中，我们将讨论如何以及为什么自动编码器可以像 GAN 那样匹配数据分布。
虽然我们的目标应用程序是语音转换，但本节的讨论也适用于其他样式转换应用程序。
作为一般的数学符号，大写字母，例如 X ，表示随机变量/向量。
小写字母，例如 x ，表示确定性值或随机变量的实例。
X(1 : T) 表示随机过程， (1 : T) 表示从 1 到 T 的时间指标集合。
为了便于标记，有时省略时间指标来表示随机过程的集合。
px(·|Y) 表示 Y 条件下 X 的概率质量函数( PMF )或概率密度函数( PDF )。
px(·|Y = y) ，或者有时 px(·|y) 不会造成混淆，表示在 Y 取特定值 y 的条件下 X 的 PMF/PDF 。
同理， E[X|Y] 、 E[X|Y = y] 、 E[X|y] 分别表示相应的条件期望。
值得注意的是， E[X|Y] 仍然是随机的，但 E[X|Y = y] 或 E[X|y] 是随机的， H(·) 为熵， H(·|·) 为条件熵。

3.1 问题描述

假设语音是由以下随机过程产生的。
首先，说话人身份 U 是从说话人群体 pU(·) 中抽取的随机变量。
则内容向量 Z = Z(1 : T) 是由联合内容分布 pZ(·) 得出的随机过程。
这里的内容是指语音和韵律信息。
最后，在给定说话人身份和内容的情况下，语音片段 X = X(1 : T) 是从语音分布中随机采样的一个随机过程，即 pX(·|U, Z) ，它表征了发出 Z 内容的说话人美国语音的分布情况。
X(t) 可以表示语音波形的一个样本，或语音谱图的一个帧。
在本文中，我们将研究语音谱图。
在这里，我们假设每个说话者产生相同数量的总体信息，即不管 u ：
公式1
现在，假设两组变量( U1 , Z1 , X1 )和( U2 , Z2 , X2 )是独立且同分布的随机样本。
( U1 , Z1 , X1 )属于源说话人，( U2 , Z2 , X2 )属于目标说话人。
我们的目标是设计一个语音转换器，它产生转换输出 X1→2 ，它保留 X1 中的内容，但匹配说话人 U2 的说话人特征。
从形式上讲，一个理想的语音转换器应该具有以下理想的性质：
公式2
上面的公式表示给定目标说话者的身份 U2 = u2 ，源语音 Z1 中的内容 Z1 = z1 ，转换后的语音听起来应该像 u2 说的 z1 。

当 U1 和 U2 都出现在训练集中时，问题是一个标准的多说话人转换问题，已有的一些著作已经解决了这个问题。
当 U1 或 U2 不包含在训练集中时，问题就变成了更具挑战性的零样本语音转换问题，这也是本文提出的 AUTOVC 的目标任务。

3.2 自动编码器框架

图 1 所示：样式转换自动编码器框架。
椭圆表示语音生成过程的概率图形模型。灰色框表示预先训练过的模块。
(a) 在转换期间，源语音被送入内容编码器。所述目标说话人的语音被馈给所述说话人编码器。解码器产生转换结果。
(b) 在训练期间，源语音被输入到内容编码器。将同一源说话人的另一语音输入到说话人编码器。内容编码器和解码器使自重构误差最小化。

AUTOVC 用一个非常简单的自动编码器框架解决了语音转换问题，如图1所示。
该框架由三个模块组成，内容编码器 Ec(·) 产生从语音中嵌入的内容，说话人编码器 Es(·) 产生从语音中嵌入的说话人，解码器 D(·，·) 产生从内容和说话人嵌入的语音。
对于转换和训练，这些模块的输入是不同的。

转化：
如图 1(a) 所示，在实际转换过程中，将源语音 X1 送入内容编码器，提取内容信息。
目标语音被送入说话人编码器以提供目标说话人信息。
该解码器基于源语音中的内容信息和目标语音中的说话人信息产生转换后的语音。
公式3
这里的 C1 和 X1→2 都是随机过程， S2 只是一个随机向量。

训练：
在整篇论文中，我们假设说话人编码器已经被预先训练过，以提取某种形式的与说话人相关的嵌入，所以我们的训练指的是内容编码器和解码器的训练。
如图 1(b) 所示，由于我们不假设并行数据的可用性，训练只需要自我重建。
更具体地说，到内容编码器的输入仍然是 X1 ，但是到样式编码器的输入变成来自同一讲话者 U1 (表示为 X’1 )的话语。
然后，对于每个输入语音 X1 ， AUTOVC 学习自我重构。
公式4
要最小化的损失函数简单来说就是自重构误差和内容代码重构误差的加权组合，即：
公式5
当：
公式6
事实证明，这个简单的训练方案足以产生理想的分配匹配语音转换，下一节将说明这一点。

3.3 为什么能这样做？

我们将正式证明这种基于自动编码器的训练方案能够实现理想的语音转换。
秘诀就是要有适当的信息限制。
我们将首先陈述理论保证，然后给出一个直观的解释。

以下定理为我们提出的框架提供了理论保证。

定理 1 ：
考虑 Eqs 中描述的自动编码器框架。
1. 说话者嵌入同一说话者的不同话语是相同的。形式上，如果 U1 = U2 ，则 Es(X1) = Es(X2) 。
2. 不同的发言者嵌入的发言者是不同的。形式上，如果 U1 ≠ U2 则 Es(X1) ≠ Es(X2) 。
3. {X1( 1: T)} 是具有有界二阶矩的遍历 order-τ 马尔可夫过程，即
公式7
进一步假设 X1 具有有限的基数。
4. 用 n 表示 C1 的维数。则 n = [n’ +T^2/3] ，其中 n’ 为 pX1(·|U1)^2 的最优编码长度。
那么下面的情况就成立了。对于每个 T ，存在一个内容编码器 Ec∗(·;T) 和解码器 D∗(·，·;T) , limT→∞ L = 0，且
公式8
其中 KL(·||·) 表示 KL 散度。
定理 1 的结论可以解释如下：如果帧数 T 足够大，且瓶颈维数 n 设置得当，则公式 5 中损失函数的全局优化器将近似满足公司 2 中的理想转换特性。
这个结论是非常有力的，因为将 GAN 应用到样式转移的主要理由是，尽管有各种麻烦，它可以理想地匹配来自目标域的真实样本的分布。
现在定理 1 传达了以下信息：要实现理想的分布匹配，你只需要一个自动编码器。定理 1 的正式证明将在附录中提出。
在这里，我们将给出一个直观的解释，这也是我们证明的要点。其基本思想是，需要设置内容编码器的瓶颈维度，使其刚好能够编码与说话者无关的信息。

图 2 : 一个直观的解释如何 AUTOVC 工作
训练时 ((a)-(c)) 目标说话人与源说话人相同，实际转换时 ((d)) 不同
每个语音片段包含两种类型的信息:说话者信息(实体)和内容信息(条纹)
(a) 当瓶颈太宽时，内容嵌入会包含一些源说话人信息
(b) 当瓶颈过窄时，内容信息丢失，导致重构不完善
(c) 当瓶颈刚刚好时，可以实现完美的重构，嵌入的内容不包含源说话人信息
(d) 在实际转换过程中，输出不应包含有关源喇叭的信息，因此转换质量应与进行自我重构时一样高

如图 2 所示，语音包含两种类型的信息：说话者信息(以纯色表示)和说话者独立信息(以条纹表示)，我们将其称为内容信息。
假设限制器很宽，和输入语音 X1 一样宽。
最方便的自我重构方法是将 X1 复制到嵌入 C1 的内容上，这样可以保证一个完美的重构。
然而，当 C1 的维数减小时， C1 将被迫丢失一些信息。
由于自动编码器试图实现完美的重建，它将选择丢失说话人信息，因为说话人信息已经在 S1 中提供。
在这种情况下，完美重建仍然是可能的，但 C1 可能包含一些说话者信息，如图 2(a) 所示。

另一方面，如果瓶颈非常窄，那么内容编码器将被迫丢失大量信息，不仅是说话者信息，内容信息也会丢失。
在这种情况下，完美的重建是不可能的，如图 2(b) 所示。

因此，如图 2© 所示，当选择 C1 的维数，使降维刚好能去除所有说话人信息而不损害内容信息时，我们就达到了理想的条件，在这种情况下，有两个重要的属性是存在的：
1. 实现了完美的重建。
2. 嵌入 C1 的内容不包含任何关于源说话人 U1 的信息，我们将其称为说话人分解。

我们现在将利用矛盾说明这两个性质是如何意味理想转换的。
假设 AUTOVC 正在执行一个实际的转换(源说话人和目标说话人是不同的)，质量很低，或者听起来根本不像目标说话人。根据性质 1 ，我们知道重建(源和目标说话人相同)的质量是高的。
但根据公式 3 ，输出语音 X1→2 只能访问 C1 和 S2 ，而 C1 和 S2 都不包含源说话人 U1 的任何信息。
换句话说，从转换输出中，我们永远无法判断它是由自我重建还是转换产生的，如图 2(d) 所示。
如果转换质量低，但改造质量高，在偶然的情况下，人们将能够区分转换和重建，这就导致了矛盾。

4 AUTOVC 架构

如图 3 所示， AUTOVC 由三个主要模块组成：一个说话人编码器，一个内容编码器，一个解码器。
AUTOVC 处理大小为 N 字节的语音梅尔谱图，其中 N 为梅尔频谱容器的数目，T为时间步长(帧)的数目。
还介绍了一个频谱图逆变器，将输出梅尔频谱图转换回波形，这也将在本节详细介绍。

图 3 ： AUTOVC 架构。每个块上面的数字表示结构的单元格/输出维度
ConvNorm 表示卷积，然后是批处理归一化。 BLSTM 为双向 LSTM ，其中白色块为正向，灰色块为反向
(a) 内容编码器。 Es(·) 模块的架构与 (b) 相同。 (b) 样式编码器。 (c) 译码器。 (d) 频谱图逆变器。
(e) 和 (f) 以上/下采样系数为 3 为例，说明了双向 LSTM 的正向和反向输出的下采样和上采样。
真正的上下采样系数是 32 。轻的特征表示它们被移除；箭头表示将箭头原点处的特性复制到目标。

4.1 说话人编码器

根据定理 1 中的假设 1 和假设 2 ，说话人编码器的目标是对同一说话人的不同话语产生相同的嵌入，对不同的说话人产生不同的嵌入。
在传统的多对多语音转换中，对说话人身份的独热编码就足够了。
然而，为了执行零样本转换，我们需要应用一个可泛化到未见过的说话人嵌入。
因此，受(《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》)的启发，我们遵循(《Generalized end-to-end loss for speaker verification》)的设计。
如图 (3)(b) 所示，说话人编码器由两个 LSTM 层组成，单元大小为 768 。
只有最后一次的输出被选中并投影到第 256 个维度，有一个完全连接的层。
最终的说话人嵌入是一个 256 × 1 的向量。
根据 GE2E 损耗(《Generalized end-to-end loss for speaker verification》) ( softmax 损耗版本)对说话人编码器进行预训练，使同一说话人的不同话语之间的嵌入相似性最大化，使不同说话人之间的相似性最小化。
因此，它与定理 1 中的假设 1 和假设 2 非常一致。

在我们的实现中，说话人编码器在 VoxCeleb1 (《Voxceleb: a large-scale speaker identification dataset》)和 Librisspeech (《Librispeech: An ASR corpus based on public domain audio books》)的组合语料上进行了预训练，其中共有 3549 名演讲者。

4.2 内容编码器

如图 3(a) 所示，内容编码器的输入是每个时间步长的 80 维梅尔谱图 X1 与嵌入的说话人 Es(X1) 相连接。
连接的特征被馈入三个 5 ×1 卷积层，每个层接着进行批处理标准化和 ReLU 激活。通道数为 512 。然后输出传递到一个由两个双向 LSTM 层组成的堆栈。向前和向后单元格的尺寸都是 32 ，所以它们的组合尺寸是 64 。

作为构建信息瓶颈的关键步骤，双向 LSTM 的前向和后向输出均下采样 32 。对于正向和反向路径，下行采样的执行方式不同。
对于正向输出，保留时间步长 {0, 32, 64，···} ；对于反向输出，保留时间步长 {31, 63, 95，···} 。
图 3(e) 和 (f) 也演示了如何进行下采样(为了便于演示，将下采样系数设为 3 )。
结果内容嵌入是两个 32 × T/32 矩阵的集合，我们将分别表示为 C1→ 和 C1← 。
下采样可以看作是沿时间轴的降维，与沿通道轴的降维一起构成了信息限制器。

4.3 解码器

解码器的架构灵感来自(《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》)，如图 3( c ) 所示。
首先，内容和说话人嵌入都是通过复制恢复到原来的时间分辨率上采样。形式化表示上采样特征分别为U→和U←。然后
公式9
其中 (:，t) 表示对第 t 列进行索引。图 3(e) 和 (f) 也演示了复制。
潜在的直觉是，每个时间步骤的每个嵌入都应该包含过去和未来的信息。对于说话人嵌入，只需复制向量 T 次。

然后，将采样后的嵌入数据连接到 3 个 5×1 卷积层，每个卷积层有 512 个通道，每个卷积层进行批处理归一化和 ReLU 处理，再将 3 个 LSTM 层的单元尺寸为 1024 。
LSTM 层的输出投影到维数 80 ，卷积层为 1×1 。
这个投影输出是转换后的语音的初始估计，表示为标识为 X1→2 。

为了在初始估计之上更好地构建谱图的细节，我们在初始估计之后引入了后网络，正如 Shen 等人(《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》)所介绍的那样。
post 网络由 5 个 5×1 卷积层组成，前 4 层采用批处理归一化和双曲正切。前 4 层的通道维数是 512 ，在最后一层下降到 80 。我们将 post 网络的输出称为残差信号，记作 R1→2 。
最终的转换结果是通过将残差加到初始估计中得到的，即：
公式10
在训练过程中，重建损失被应用于初始和最终的重建结果。
形式上，除了式 (5) 中规定的损失外，我们还增加了一个初始重建损失，定义为:
公式11
在重构的情况下 X1→1 是 X1→2 的倒数，即 U2 = U1 。全部损失变为：
公式12
虽然公式 12 偏离了定理 1 所依赖的公式 5 ，但我们通过经验发现，这提高了收敛性，并没有损害性能。

4.4 谱图逆变器

我们采用 Van Den Oord 等人(《Wavenet: A generative model for raw audio》)介绍的 WaveNet 声码器，该声码器由 4 个解卷积层组成。
在我们的实现中，梅尔谱图的帧率为 62.5 Hz ，语音波形的采样率为 16 kHz 。
因此，解卷积层将提高频谱图的采样率，以匹配语音波形的采样率。
然后，使用标准的 40 层 WaveNet 对新采样的声谱图进行调理，生成语音波形。
我们使用 Shen 等人(《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》)在 VCTK 语料库上描述的方法对 WaveNet 声码器进行了预训练。

5 实验部分

在本节中，我们将在多对多语音转换任务中评估 AUTOVC ，并以经验验证 AUTOVC 框架的假设。

5.1 配置

该评价是在 VCTK 语料库(《Superseded-CSTR VCTK corpus: English multi-speaker corpus for CSTR voice cloning toolkit》)上进行的，该语料库包含来自 109 位发言者的 44 小时的话语。
除了彩虹短文和引出的段落外，每位演讲者都读不同的句子。所以转换设置是非并行的。
根据转换任务，选择了不同的说话人子集。然后将每个说话人的数据按照 9:1 分成训练集和测试集。
使用 ADAM 优化器，对 AUTOVC 进行训练，批处理大小为两为 100k 的步骤。
说话人嵌入是通过将同一说话人的 10 个 2 秒语音输入说话人编码器并对所产生的嵌入进行平均而生成的。
公式 12 中的权重设为 λ = 1，µ = 1 。

我们对 Amazon Mechanical Turk ( MTurk )进行了两项主观测试。
在第一个测试中，称为平均意见得分( MOS )测试，被试呈现转换的话语。对于每一个话语，受试者被要求在转换后的话语的自然程度上给 1-5 分。
在第二个测试中，称为相似度测试，受试者被呈现成对的话语。在每一对中，都有一个转换的话语，以及一个来自目标说话人的相同句子的话语。对于每一对，受试者被要求在声音相似性上给 1-5 分。
我们遵循 Wester 等人(《Analysis of the voice conversion challenge 2016 evaluation results》)的设计来提示受试者判断说话者是否相同，以及他们对自己的判断有多自信。
因此，相似度评分 5 对应的是同一说话人的高度自信， 1 对应的是不同说话人的高度自信。
实验对象被明确要求关注声音而不是语调和口音。

5.2 传统的多对多的转换

传统的多对多转换任务只对训练语料库中的说话者进行转换。
两种基线与 AUTOVC 进行比较，我们称之为 StarGAN-VC (《Starganvc: Non-parallel many-to-many voice conversion with star generative adversarial networks》，《Multitarget voice conversion without parallel data by adversarially learning disentangled audio representations》)。两个基线在非并行多对多语音转换中都是最先进的。
对于 Chou 等人(《Multitarget voice conversion without parallel data by adversarially learning disentangled audio representations》)，我们使用原始实现及其预训练模型，该模型在 VCTK 语料库中训练了 20 名说话者。为了便于比较，其他的模型都是用同样的 20 个说话人训练的。
请注意，训练/测试集的划分与 Chou 等人的预训练模型不同，因此我们给 Chou 等人的基线在训练期间看到部分测试话语的不公平优势。我们使用 StarGAN-VC 的开源实现。

AUTOVC 使用由说话人编码器产生的说话人嵌入，而基线只使用说话人的独热嵌入。
为了避免不公平的比较和研究 AUTOVC 的性能优势是否仅仅来自于说话人的嵌入，我们实现了另一个版本的 AUTOVC 独热编码，它也使用了说话人的独热嵌入。

为了构建用于 MTurk 评价的话语，从训练集中的 20 个说话者中随机选择 10 个说话者， 5 男 5 女。
然后，我们通过将 10 个说话人中的每个人的测试语音转换为 10 个说话人中的每个人的语音，产生 10×9 = 90 个转换样本。
每个测试单元称为 HIT ，包含三种算法中同一源-目标说话人对的转换结果，因此总共有 100 个 HIT 。每一个 HIT 被分配给 10 个对象。

图 4 ：对传统转换的主观评价结果。误差条表示 95% 的置信区间。

MOS 评分如图 4(a) 所示，相似度评分如图 4(b) 所示。
我们将音频分为四个性别组，男性对男性，男性对女性，女性对男性和女性对女性，并在每个性别组中总结得分。
如图 4(a) 所示，使用AUTOVC生成的语音感知质量明显优于基线。
所有组的 MOS 评分都在 3 以上，而基线的 MOS 评分几乎都在 3 以下。
为了让读者更好地理解这意味着什么，请注意 16kHz 自然语音的MOS 值约为 4.5 。
目前最先进的语音合成器的 MOS 分数在 4 到 4.5 之间(《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》，《Deep voice: Real-time neural text-to-speech》)。
在 2016 年语音转换挑战(《Analysis of the voice conversion challenge 2016 evaluation results》)中，平行转换的最高得分为同性转换 3.8 分，跨性别转换 3.2 分。
因此，我们的主观评价结果表明， AUTOVC 在自然程度上接近并行转换系统的性能，并且远远优于现有的非并行转换系统。

在相似性方面， AUTOVC 也优于基线。
请注意，对于基线算法，从同性转换到跨性别转换有显著的退化，但 AUTOVC 算法没有显示这种退化。
最后， AUTOVC 和 AUTOVC 独热编码之间没有显著差异，这意味着 AUTOVC 的性能提升并不是使用说话人编码器的结果。

5.3 零样本转换

现在我们准备超越传统的转换任务，转向零样本转换，目标说话人在训练集中是缺失的，每个目标说话人只有几句( 20 秒)的话语可供参考。
由于没有零样本转换基线，我们将在 AUTOVC 中比较结果。

实验设置与 5.2 节几乎相同，除了将训练集扩展到 40 个说话者，以提高对未见过的说话者的通用性。
10 个见过的说话人和 10 个未见过的说话人被选择用于 MTurk 评估，因此总共有 400 个源目标说话人对，每个产生一个转换话语。
每个 HIT 包含 4 个句子，加起来总共有 100 个 HIT 。每个 HIT 被分配给 10 个对象。

图 5 ：零样本转换的主观评价结果。误差条表示 95% 的置信区间。

图 5 显示了得分。有三个观察结果。首先，对于出现过的说话人之间的转换，其性能与 5.2 节相当。
注意，在这个实验中， AUTOVC 是在 40 个说话人上进行训练的，这是 5.2 节实验中使用的说话人数量的两倍。
因此，这种在出现过的说话人上的可比性能表明， AUTOVC 可扩展到训练集中的大量说话人。

第二，在 MOS 评分方面， AUTOVC 对未出现过的说话人显示了良好的一般化， MOS 评分在大多数设置超过 3 。
这意味着，即使是未出现过的说话人， AUTOVC 仍然能够优于大多数现有的非并行转换算法。

最后，在相似性评分方面，有一个有趣的观察，只要出现过的说话人包括在转换的任何一方，表现是可比较的。
从未见过的说话人到未见过的说话人和其他范例之间的转换有很大的差距。
然而，即使是最具挑战性的未见过的说话人之间的转换，相似度评分仍然很有竞争力，这也证明了 AUTOVC 的零样本转换能力。

5.4 限制维度分析

我们对所提出的风格传递自动编码器的理论依据是，限制器维度影响内容代码和源说话人信息的完美重构和解纠缠，并且存在一个理想的限制器维度，在这两个属性都保持(图 2 )。
在本节中，我们将用经验验证这一观点。

我们测量了 AUTOVC 的重构质量和内容代码与源说话人信息之间的解纠缠程度。
重构质量由训练集重构误差的 l2 范数来衡量。重构误差越小，重构质量越高。
通过在内容代码上训练说话人分类器，并在训练集上计算分类精度来测量解纠缠。分类精度越高，解缠性越差。
说话人分类器由 3 个全连接层组成，每层分别有 2048 、 1024 和 1024 个隐藏节点，并通过 softplus 激活。输出激活为 softmax ，训练损失为交叉熵。
模型架构和实验设置遵循章节 5.3 ，因此说话人分类是在 40 个出现过的说话人。

作为参考，我们介绍了两个锚模型。
第一个模型，我们称之为过窄模型，它将 C1→ 和 C1← 的维数从 32 减小到 16 ，将下采样因子从 32 增大到 128 (注意下采样因子越高，时间维数越低)。
第二个模型，我们称之为过宽模型，将 C1→ 和 C1← 的尺寸增加到 256 ，并将采样因子降低到 8 ，λ设为 0 。
从图 2 可以推测，过窄的模型分类精度低(解纠缠性好)，重构误差大(重构性差)。
过宽模型的重构误差小(重构效果好)，但分类精度高(解纠缠性差)。
常规的 AUTOVC 模型应具有低重构误差(良好的重构)和低分类精度(良好的解纠缠)。

表 1 ： AUTOVC 重构质量评估及说话人解纠缠。

表 1 给出了三种模型的重构误差和说话人分类精度。
正如预期的那样，随着限制其尺寸的减小，重构误差增加，分类精度降低。
有趣的是，普通的 AUTOVC 模型确实达到了很好的平衡，重构误差几乎和过宽模型一样低，分类精度几乎和过窄模型一样低。
值得一提的是， Chou 等人(《Multitarget voice conversion without parallel data by adversarially learning disentangled audio representations》)明确实施对抗性训练来强制解除说话者纠缠。
进行了相似的分类实验来测试解缠，采用对抗性训练对 20 个说话人进行分类，分类准确率为 45.1% 。
为了与这个结果进行公平的比较，我们还对同样的 20 个说话人进行了说话人分类测试，分类准确率为 14.2% 。
这一结果表明，限制器维数调整在说话人解缠上比更复杂的对抗训练更有效。

6 结论

在本文中，我们提出了 AUTOVC ，一种非并行语音转换算法，它的性能显著优于现有的最先进的算法，并且它是第一个执行零样本转换的算法。
与其性能优势形成鲜明对比的是其简单的自编码器结构，仅对自重构进行训练，并在重构质量和说话人解缠之间进行瓶颈调整。
在一个为风格转换构建越来越复杂算法的时代，我们的理论论证和 AUTOVC 的成功表明，是时候回归简单了，因为有时一个带有惊喜设计限制器的自动编码器就是你所需要的一切。