【论文学习】《On Prosody Modeling For ASR+TTS Based Voice Conversion》

《On Prosody Modeling For ASR+TTS Based Voice Conversion》论文学习

摘要

在语音转换(VC)中，一种在最新的语音转换挑战(VCC) 2020中显示出良好结果的方法是：首先使用自动语音识别(ASR)模型将源语音转录为潜在的语言内容；然后，这些数据被文本到语音(TTS)系统用作输入，以生成转换后的语音。这种范式被称为ASR+TTS，它忽略了韵律的建模，而韵律在语音自然度和转换相似度方面起着重要作用。虽然一些研究者已经考虑过从源语中转移韵律线索，但在训练和转换过程中会出现说话人不匹配的情况。
为了解决这一问题，本文提出了一种基于目标说话人的语言表征直接预测韵律的方法，即目标文本预测。我们在VCC2020基准上评估了这两种方法，并考虑了不同的语言表征。结果表明，在客观评价和主观评价中，TTP都是有效的。

关键词：语音转换，自动语音识别，文本到语音，韵律，全局风格标记

1 介绍

在语音转换(voice conversion，VC)中，目的是在不改变语言内容的情况下，将源语转换为目标语(《Continuous probabilistic transform for voice conversion》，《Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory》)。从信息的角度来看，VC的目标是从源语音中提取语音内容，然后将提取的内容与目标说话人的身份合成转换后的语音。一个理想的VC系统将由识别模块和合成模块两部分组成，这两部分分别执行上述的操作。
这种范式可以通过自动语音识别(ASR)模型和文本语音转换(TTS)系统的级联直接实现，即ASR+TTS。在最新的语音转换挑战赛2020 (VCC2020)(《Voice Conversion Challenge 2020 - Intra-lingual semi-parallel and cross-lingual voice conversion》)中，ASR+TTS作为基准系统(《The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS》)，表现最好的系统也实现了这样的框架(《Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer》)，在自然性和相似性方面都展现了最先进的性能。

尽管ASR+TTS范式的研究取得了可喜的成果，但韵律的转换和建模往往被忽视。韵律是讲话中几个基本的前期成分的组合，如音高、重音和停顿，它影响后续的高层次特征，包括情绪和风格。从前文所述的信息角度来看，ASR+TTS中的合成模块负责恢复识别模块丢弃的所有信息。在基于文本的ASR+TTS基线系统(《The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS》)中，由于文本到韵律的映射是一对多的，特定的韵律或风格在文本中是不可预测的，因此TTS模型只能从训练数据的统计属性隐式建模韵律模式，导致崩溃，平均韵律风格。

表达性言语合成是一个与之密切相关的研究领域，其目的之一就是控制言语的变异性。最广泛使用的方法之一是使用全局风格标记(GST)(《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》)，使用该标记将引用语音编码到一个固定维度的嵌入(《Towards Endto-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》)中，该嵌入表示为一组预定义风格标记的加权和。因此，在给定文本、说话人身份和参考语音韵律编码的条件生成模型的基础上，构建了一个带有GST的TTS模型(GST-TTS)。许多人将这种框架推广到变分自编码器(VAEs)(《Learning Latent Representations for Style Control and Transfer in End-to-end Speech Synthesis》，《Hierarchical Generative Modeling for Controllable Speech Synthesis》)，以增加学习到的嵌入空间的泛化性。另一项工作是通过学习可变长度的韵律嵌入来实现细粒度韵律控制(《Robust and Fine-grained Prosody Control of End-to-end Speech Synthesis》，《FineGrained Robust Prosody Transfer for Single-Speaker Neural Text-To-Speech》)。

上述方法首次应用于(《Transferring Source Style in Non-Parallel Voice Conversion》)中的VC中，称之为源韵律转移(source prosody transfer，SPT)。如图1a所示，参考编码器将源语音作为输入，生成全局韵律嵌入，使转换后的语音的韵律跟随源语音。这一过程在表达性TTS文献(《Towards Endto-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》)中也被称为同文本韵律迁移，因为参考语音和TTS的输入语音包含相同的语言内容，而TTS的输入语音也来源于源语音。在VCC2020中，几个表现最好的团队通过采用带有对抗层的变分参考编码器来帮助解纠缠，从而扩展了SPT(《Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer》，《Submission from SRCB for Voice Conversion Challenge 2020》)，显示了SPT的竞争力。

尽管如此，(《Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer》)的消融研究表明SPT对任务1并没有带来任何显著的改善。在基于ASR+TTS的VC中，SPT可能是一个次优的韵律建模策略。首先，依赖于目标说话人的TTS训练导致了训练和转换之间的不匹配，因为在训练时目标说话人的语音作为参考编码器的输入，而在转换时使用源说话人的语音。扬声器对抗分类器可以缓解这个问题(《Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer》，《Submission from SRCB for Voice Conversion Challenge 2020》)，但需要仔细的超参数调整。第二，有些情况下SPT是不需要的，如情感VC或重音转换。

在本研究中，我们研究了两种基于ASR+TTS的VC韵律建模方法。除了SPT，我们提出了一种新的技术，我们称之为目标文本预测(TTP)。我们借鉴(《Predicting Expressive Speaking Style from Text in End-To-End Speech Synthesis》)的思想，训练一个文本预测(TP)模块，从源语音衍生的文本中生成韵律嵌入。图1b说明了这个过程。TP模块首先在多说话人数据集上使用GST-TTS进行预训练，然后以依赖目标说话人的方式进一步进行微调。因此，与SPT不同，TTP不存在训练和转换之间的不匹配。我们对这项工作的贡献如下：
（1）我们提出了一种新的基于ASR+TTS的VC韵律建模技术TTP，该技术以目标说话人依赖的方式预测韵律。
（2）我们将SPT和TTP两种韵律建模方法应用于三个不同表征的ASR-TTS系统，并在VCC2020的两个任务中对其进行评估。结果表明，TTP总是优于SPT。

2 基于 ASR + TTS 的语音转换

2.1 整体框架和转换过程

本工作中基于ASR+TTS的VC系统是建立在VCC2020的基线系统之上的。如图2所示，该系统由三个模块组成：独立于说话人的识别器，依赖于目标说话人的合成器，以及生成最终语音波形的神经声码器。识别器首先从源语音 $X$ 开始提取语音内容： $\hat{Y}=Recognizer(X)$ 。合成器采用转录和合成转换的声学特征： $\hat{X}=Synthesizer(\hat{Y})$ 。神经声码器最终使用转换后的声学特征作为输入来重建波形。

2.2 中间表示

语音内容 $Y$ 可以是任何中间表征。除了像在(《The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS》)中那样使用文本外，在本工作中，我们还评估以下两种表示。请注意，这项工作的目标是检查三种表现形式的韵律建模技术的有效性，而不是提供它们之间的公平比较。

瓶颈特征(BNF)：
由ASR模型衍生出来的与说话人无关的框架级语音瓶颈特征为内容提供了强有力的线索。这些特征首先在(《Phonetic posteriorgrams for many-to-one voice conversion without parallel data training》)中使用，其中使用了语音后验图(PPG)，这是一种时间-类别矩阵，代表每一帧每个语音类别(指单词、音素或多音素)的后验概率。在这项工作中，就像在(《Sequence-to-Sequence Acoustic Modeling for Voice Conversion》)中一样，我们使用ASR模型中最后一个softmax层之前的隐藏表示。

VQW2V：
BNF等特征源自ASR模型，需要使用标签进行监督；这增加了构建这样一个系统的成本，特别是在低资源或跨语言的环境中。另外，一些研究(《Anyto-One Sequence-to-Sequence Voice Conversion using SelfSupervised Discrete Speech Representations》，《The Academia Sinica Systems of Voice Conversion for VCC2020》，《FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention》)采用了在训练中不需要任何标签的自我监督表征，但仍然是说话者独立的和框架上的。在本工作中，我们采用矢量量化的wav2vec (VQW2V)(《vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations》)。

2.3 训练

ASR：多扬声器数据集 $D_{ASR}$ 确保识别器的扬声器独立性。
TTS：合成器训练包括预训练和微调阶段。先对多说话人TTS数据集 $D_{TTS}$ 进行预训练，然后对有限目标说话人数据集 $D_{trg}$ 进行微调。这是建立现代神经TTS模型的常见做法，因为前训练确保了稳定的质量，微调保持了高说话者相似度(《Semi-Supervised Speaker Adaptation for Endto-End Speech Synthesis with Pretrained Models》)。这样的训练策略甚至允许对大约5分钟的数据进行训练。为了训练基于文本的合成器，使用了人类标记的文本。然而，由于不可能标注ground-truth BNF和VQW2V，我们使用训练过的识别器提取表示进行合成器训练。

ASR和TTS模型采用序列到序列(seq2seq)结构，通过建模语音中的长期依赖关系，提高了转换相似性。请注意，这两个模型可以分别训练，从而受益于它们各自领域的高级技术和各种各样的数据集。

3 基于 ASR + TTS 的语音韵律建模转换

本文研究了两种韵律建模技术，即SPT和TTP。在本节中，我们首先介绍了GST和TP这两个基本的构建模块，然后描述了SPT和TTP中的训练过程。我们省略了在第1节中讨论过的转换过程的描述。

3.1 全局样式标记和文本预测

GST-TTS旨在使用从参考语音编码的全局风格嵌入(与《Robust and Fine-grained Prosody Control of End-to-end Speech Synthesis》中的细粒度嵌入不同)，以捕获其他输入流(包括文本： $Y$ 和说话者标签： $s$ (《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》))未指定的残留属性。形式上，给定 $D_{TTS}$ 的训练样本 ${(X, Y, s)\}$ ，其中 $X$ 表示语音发音，训练包括最小化以下 $L 1 - l o s s$ ：
$L_{GST}=\Vert X-Synthesizer(Y,s,RefEnc(X))\Vert_1 \tag{1}$ 其中RefEnc函数由一个参考编码器、一个样式注意层和一组称为GSTs的可训练标识组成。具体来说，参考编码器首先将参考语音作为输入，并生成一个固定维的输出向量。然后将其用作对注意层的查询，以生成预定义GSTs之上的一组权重。最终的风格嵌入本质上是GSTs的加权和，并与TTS编码器的隐藏状态融合。

在推理过程中，原始GST-TTS要么需要参考语音，要么需要手动设置一组权重。在《Predicting Expressive Speaking Style from Text in End-To-End Speech Synthesis》中，为了单独操作给定的文本输入，提出了使用额外的TP模块，该模块以TTS编码器的隐藏状态作为输入，以近似ground-truth风格权重或从目标语音中提取的风格嵌入。TP模块的训练目标可以将式1改写为：
$L_{TP}=\Vert X-Synthesizer(Y,s,TP(X))\Vert_1 \tag{2}$ TP模块可以通过一个停止梯度算子与GST-TTS联合训练。实验结果表明，TP模块能够很好地反映训练数据的变化，且仅使用文本输入。

3.2 源韵律转移

SPT最早在(《Transferring Source Style in Non-Parallel Voice Conversion》)中提出，并在后续工作中得到进一步利用(《Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer》，《Submission from SRCB for Voice Conversion Challenge 2020》，《CASIA Voice Conversion System for the Voice Conversion Challenge 2020》，《Towards FineGrained Prosody Control for Voice Conversion》)。SPT的训练过程包括两个阶段：
1. 在 $D_{TTS}$ 上使用 $L_{GST}$ 预训练GST-TTS，如公式1所示。
2. 在 $D_{trg}$ 上使用 $L_{GST}$ 对GST-TTS进行微调，如公式1所示。

SPT的转化过程可以表示为：
$\hat{X}=Synthesizer(Recognizer(X),S_{trg},RefEnc(X)) \tag{3}$ 比较方程1和方程3，可以发现RefEnc的输入是不同的。训练时使用目标说话人的讲话，转换时使用源说话人的讲话。如第1节所讨论的，如果RefEnc对目标说话人进行了过度微调，SPT可能会遇到说话人不匹配的问题。在微调过程中冻结RefEnc可能是一种补救措施，但正如我们将在实验部分显示的那样，这并不能缓解问题。

3.3 目标文本预测

我们提出TTP来解决前面提到的次最优问题。TTP的训练过程包括三个阶段：
   1. 对GST-TTS进行 $D_{TTS}$ 预训练。
   2. 使用 $L_{TP}$ 在 $D_{TTS}$ 上预训练TP，如公式2中所示，所有其他模型参数固定。注意，在此阶段不再需要GST模块。
   3.使用 $L_{TP}$ 在 $D_{trg}$ 上微调TP和TTS，如公式2所示。

TTP的转换过程可以表示为:
$\hat{X}=Synthesizer(Recognizer(X),S_{trg},TP(RefEnc(X))) \tag{4}$ 通过比较公式2和公式4可知，TP模块使用 $Y$ 作为输入，识别器保证了 $Y$ 与说话人无关，因此可以避免说话人失配。因此，正如我们将在实验中展示的那样，TTP比SPT更健壮。

4 实验设置

4.1 数据

我们使用了VCC2020数据集(《Voice Conversion Challenge 2020 - Intra-lingual semi-parallel and cross-lingual voice conversion -》)，在我们的评估中包含两个任务。数据条件汇总于表1。这两个任务都使用同样的两个源英语男性和女性说话者，他们的数据没有被使用。在任务1中，说英语的有两个目标群体，男性和女性，而在任务2中，说芬兰语、德语和普通话的分别有一个男性和一个女性。在转换过程中，原语说话人的声音在保持语言内容不变的情况下，被转换成目标语说话人的声音。对于每个目标讲话者，提供了70个各自语言和内容的话语。在任务1和任务2中分享了用于评价的25个测试句子。

所有的识别器都使用LibriSpeech数据集(《LibriSpeech: An ASR corpus based on public domain audio books》)进行训练。对于多语音TTS数据集，我们使用干净子集LibriTTS数据集(《LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech》)，除了在基于文本的任务2系统中，我们合并了芬兰语(《CSS10: A Collection of Single Speaker Speech Datasets for 10 Languages》)、德语(《The MAILABS speech dataset》)和汉语(《Chinese standard mandarin speech corpus》)的开源单语音TTS数据集，如(《The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS》)。对于每一个任务，使用源和目标说话人的训练数据分别训练一个单独的神经声码器。

4.2 实现

该系统使用ESPnet实现，ESPnet是一个开发良好的开源端到端(E2E)语音处理工具包(《ESPnet: End-to-End Speech Processing Toolkit》，《Espnet-TTS: Unified, Reproducible, and Integratable Open Source End-toEnd Text-to-Speech Toolkit》)。继(《The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS》)之后，基于文本系统的ASR模型是基于联合CTC/attention loss(《Hybrid CTC/Attention Architecture for End-to-End Speech Recognition》)的Transformer(《Attention is All you Need》，《Speech-Transformer: A No-Recurrence Sequence-to-Sequence Model for Speech Recognition》，《Improving Transformer-Based End-to-End Speech Recognition with Connectionist Temporal Classification and Language Model Integration》)，以及基于RNN的语言模型用于解码。BNF提取的ASR模型基于TDNNF-HMM(《Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks》)，其中我们将40维MFCCs和400维i向量连接起来作为输入。对于VQW2V，我们使用fairseq(《fairseq: A Fast, Extensible Toolkit for Sequence Modeling》)提供的公开可用的预训练模型，如(《Any-to-One Sequence-to-Sequence Voice Conversion using SelfSupervised Discrete Speech Representations》)。

所有合成器将它们各自的输入映射到80维mel滤波器组，具有1024个FFT点和256点帧移(16毫秒)。我们使用x向量(《X-vectors: Robust dnn embeddings for speaker recognition》)作为说话人的嵌入，我们使用Kaldi提供的预训练模型。在推理过程中使用每个说话人训练话语的所有x向量的平均值。离散输入包括文本和VQW2V的合成器具有Transformer-TTS架构(《Neural Speech Synthesis with Transformer Network》)，具有详细设置(《The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS》，《Any-to-One Sequence-to-Sequence Voice Conversion using SelfSupervised Discrete Speech Representations》)。对于基于BNF的合成器，我们采用了Voice Transformer Network (VTN)(《Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining》，《Pretraining Techniques for Sequence-to-Sequence Voice Conversion》)，并遵循了官方的实现。对于神经声码器，我们采用Parallel WaveGAN (PWG)(《Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram》)，并遵循开源实现。

5 实验评估

5.1 客观评价

我们进行了三种类型的客观评价指标。从现成的ASR系统中得到的字符/单词错误率(CER/WER)不仅是可理解性的估价值，而且在VC中也是一个强有力的质量指标，如(《Predictions of Subjective Ratings and Spoofing Assessments of Voice Conversion Challenge 2020 Submissions》)所示。我们的ASR引擎是基于Transformer(《Speech-Transformer: A No-Recurrence Sequence-to-Sequence Model for Speech Recognition》)和LibriSpeech训练。报道了24维梅尔倒谱失真(MCD)和F0均方根误差(F0RMSE)来评估谱失真和韵律转换精度，其中两项指标的计算都是基于WORLD声码器(《WORLD: A Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications》)。请注意，在任务2中，只报告了CER/WER，因为无法访问ground-truth语音。任务1和任务2的模型选择分别基于MCD和CER，表现最好的模型生成样本进行主观测试。

5.1.1 任务 1 的结果

表2显示了任务1的客观结果。在基于文本的系统中，引入韵律建模显著改善了CER/WER。我们怀疑改进的韵律模式使ASR模型能够轻松正确地识别内容。与SPT相比，TTP被证明更有效，因为它优于所有系统。但对于BNF和VQW2V等帧级特征，SPT和TTP的改进并不显著。这一结果表明，细粒度表示已经携带了大量的韵律信息，这些信息在识别过程中并没有被丢弃，因此GST无法对其进行正确的建模。

我们还发现，在微调期间冻结GST模块会降低性能。一个可能的原因是，GST不仅捕获韵律，还捕获其他残留属性，如通道和噪声，这种不匹配必须通过微调过程处理。最后，与未冻结的SPT相比，TTP的性能不断优于所有表征，证明了其优越的有效性。

5.1.2 任务 2 的结果

表3显示了任务2的客观结果。首先，对于基于文本的系统而言，SPT提高了德语和汉语目标使用者的表现，TTP则有利于汉语目标使用者。通过听几个样本，我们发现SPT和TTP都有助于模型插入适当的短停顿，这显著提高了可理解性。另一方面，这两种方法降低了说芬兰语的人的成绩；我们假设芬兰语的文本预处理不当，使得声学和韵律建模都很困难。在框架表征方面，我们认为SPT和TTP对可理解性影响不大。注意，在SPT中冻结GST不会像在任务1中那样导致降级。

5.2 主观评价

我们遵循《Voice Conversion Challenge 2020 - Intra-lingual semi-parallel and cross-lingual voice conversion -》中描述的主观评价方法，从自然度和说话人相似度两个方面进行评价。在自然程度方面，参与者被要求通过平均意见评分(MOS)测试来评估演讲的自然程度。对于转换相似度，给每个听者呈现一个自然目标演讲和一个转换后的演讲，并要求他们在四分量表上判断它们是否由同一个演讲者产生。

对于每个系统，每个转换对随机选择5个话语。在自然度测试中，也包括目标说话人的录音，并将其作为上限。在《Voice Conversion Challenge 2020 - Intra-lingual semi-parallel and cross-lingual voice conversion -》之后的任务2相似性测试中，我们选择了三段英语录音和两段L2语言录音作为五个转换话语的自然参考。所有的主观评价都是使用开源工具包《An Open Source Implementation of ITU-T Recommendation P.808 with Validation》进行的，该工具包实现了ITU-T建议P.808(《Subjective evaluation of speech quality with a crowdsourcing approach》)，用于在使用Amazon Mechanical Turk (Mturk)的人群中进行主观语音质量评估，并对获得的数据进行不可靠评级的筛选。我们从美国招募了100多名听众，并让五名不同的参与者对每个样本平均打分。请注意，为了降低成本，我们消除了在试听测试中冻结GST的SPT系统，因为与不冻结GST的系统相比，它们产生的性能较差，如5.1节所示。音频样本可以在网上找到。

5.2.1 自然度测试

图3显示了自然度结果。我们首先关注任务1。对于基于文本的系统，与第5.1.1节的结果相反，SPT和TTP结果与基线具有可对比性。对于帧级特性，SPT在很大程度上降低了性能，而TTP可以弥补这种降低，但只是使其与基线持平。我们仍然可以得出结论，在任务1中，TTP优于SPT，但与基线相比没有显著改善。这些结果与《Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer》的发现有些一致。

对于任务2，所有系统都显示出SPT带来的性能下降，在所有表示中，TTP的性能显著优于SPT。对于基于帧级特征的系统，TTP甚至可以超过基线，也可以与基于文本的系统相媲美。为了研究这种差异，我们在图3的底部图中绘制了每种目标语言的分解。我们怀疑相对的性能变化再次与文本预处理相关，如第5.1.2节所述。在《The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS》中，得益于开源社区，我们利用G2P工具将英语和普通话文本转换成音素，从而得到了更好的声学模型，TTP带来了更大的改进。另一方面，由于缺乏语言知识，芬兰语和德语中使用了汉字，与TTP结合使用时出现了退化现象。因此，如果正确处理输入表征，TTP是提高任务2自然度的有效方法。

5.2.2 相似度测试

图4显示了相似度结果。在任务1中，SPT和TTP在基于文本和基于VQW2V的系统中表现出了相当的性能，而SPT在基于BNF的系统中表现得明显更差。对于任务2，所有三种表示都产生了相似的趋势，因此任何韵律建模方法都无法区分明显的性能增益。虽然人们普遍认为韵律与说话人的身份高度相关，但在此我们只能得出结论，韵律建模只是提高了自然度。

另一方面，在使用第二语言录音作为参考讲话的情况下，有必要想象目标说话人的英语声音，以判断与转换后的讲话的相似性。在这样的主观评价协议下，我们怀疑听者只能依靠粗糙的韵律线索，如整体的音高水平和音色，而不受韵律建模技术的影响。

5.3 风格嵌入的可视化

我们使用在LibriTTS上预先训练的不同表示(LibriTTS是3.2节中阶段1的结果模型)来可视化GST-TTS模型的风格嵌入空间。我们输入10个目标说话人的训练话语，获得风格嵌入，并通过t-SNE方法(《Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram》)进行降维可视化。作为参考，我们也把x向量形象化了。最后，我们根据每个目标演讲者给点上色。结果图如图5所示。

首先，可以观察到所有表示(文本、VQW2V和BNF)都以某种方式对说话者进行了聚集。一个可能的原因可能是韵律是依赖于说话人的(《Effective use of variational embedding capacity in expressive end-to-end speech synthesis》)，我们也可以推断，使用x向量来嵌入说话人并不能完全捕获所有与说话人相关的变化，因此GST-TTS模型依赖于风格嵌入的帮助。这为使用说话人对抗性分类器提供了理由(《Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer》，《Submission from SRCB for Voice Conversion Challenge 2020》)。

我们进一步观察到视觉聚类程度(说话人的点在一起的距离)从低到高依次为文本、VQW2V、BNF和x向量。我们认为，聚类程度反映了风格嵌入可以解释的变异量。正如我们所知，文本包含的韵律信息最少，我们可以推断，由于框架级别的性质，VQW2V和BNF等表示已经包含了很多韵律信息，因此样式嵌入需要捕获的内容已经不多了。尽管如此，从任务2中自然度的改善，如第5.2.1节所述，我们注意到韵律建模在捕获残留信息方面仍然是有效的。

6 结论

本文研究了基于ASR+TTS的VC中两种韵律建模方法：SPT和TTP。SPT在VCC2020中已经被几个顶级系统应用，而TTP在本工作中是新提出的，其动机是防止SPT中培训和转换之间的不匹配。我们在VCC2020基准上进行了实验，考虑了三种中间表示:文本、BNF和VQW2V。结果表明，TTP始终优于SPT，并能在适当的输入表征下优于基线。最后，通过对不同表示学习的风格嵌入的可视化，揭示了SPT和TTP带来的有限改进。