《Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining》论文学习
文章目录
摘要
提出了一种新的序列到序列( seq2seq )语音转换模型,该模型基于文本到语音( TTS )预训练的 Transformer 结构。
Seq2seq VC 模型是有吸引力的,因为他们的能力转换韵律。
基于递归神经网络( RNNs )和卷积神经网络( CNNs )的 seq2seq 模型已经成功地应用于 VC ,而 Transformer 网络在各种语音处理任务中显示出了良好的结果,尚未被研究。
尽管如此, seq2seq 模型的数据需求性和转换语音的错误发音使其不切实际。
为此,我们提出了一种简单而有效的前训练技术,从大规模、易于获取的 TTS 语料库中迁移知识。
用这些预先训练的模型参数初始化的 VC 模型能够为高保真、高清晰度的转换语音生成有效的隐藏表示。
实验结果表明,该预训练方案能够促进数据高效训练,并在可理解性、自然度和相似度方面优于基于 RNN 的 seq2seq VC 模型。
索引术语 —— 语音转换 , 序列到序列学习 , Transformer ,预训练
1 介绍
语音转换( VC )的目的是在不改变语言内容(《Continuous probabilistic transform for voice conversion》)的情况下,将源语音转换为目标语音。
传统的 VC 系统遵循分析转换合成范式(《Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory》)。
首先,利用 WORLD (《WORLD: A VocoderBased High-Quality Speech Synthesis System for Real-Time Applications》)或 STRAIGHT (《Restructuring speech representations using a pitch-adaptive timefrequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds》)等高质量声码器提取不同的声学特征,如光谱特征和基频( F0 )。
这些特征分别转换,波形合成器最终使用转换的特征生成转换波形。
以往的 VC 研究主要集中在光谱特征的转换上,而只是对 F0 进行简单的线性变换。
此外,转换通常是逐帧进行的,即转换后的语音和源语音的长度总是相同的。
综上所述,目前的 VC 文献对包括 F0 和持续时间在内的韵律转换过于简化。
这就是序列到序列( seq2seq )模型(《Sequence to Sequence Learning with Neural Networks》)可以发挥作用的地方。
现代的 seq2seq 模型通常带有注意机制(《Neural machine translation by jointly learning to align and translate》,《Effective approaches to attention-based neural machine translation》),用于隐式学习源序列和输出序列之间的对齐关系,可以生成各种长度的输出。
这种能力使 seq2seq 模型成为在 VC 中转换持续时间的自然选择。
此外, F0 轮廓也可以采用显式 F0 (如将光谱和 F0 序列串联起来形成输入特征序列)(《Voice Conversion Using Sequence-to-Sequence Learning of Context Posterior Probabilities》,《ATTS2S-VC: Sequence-to-sequence Voice Conversion with Attention and Context Preservation Mechanisms》,《ConvS2SVC: Fully convolutional sequence-to-sequence voice conversion》)或隐式 F0 轮廓(如使用 Mel 谱图作为输入特征)(《Sequence-toSequence Acoustic Modeling for Voice Conversion》,《Improving Sequence-to-sequence Voice Conversion by Adding Text-supervision》,《Non-Parallel Sequenceto-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations》,《Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams》,《Hierarchical sequence to sequence voice conversion with limited data》,《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》)进行转换。
Seq2seq VC 可以进一步应用到重音转换(《Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams》)中,其中韵律转换起着重要作用。
现有的 seq2seq VC 模型要么基于递归神经网络( RNNs )(《Voice Conversion Using Sequence-to-Sequence Learning of Context Posterior Probabilities》,《ATTS2S-VC: Sequence-to-sequence Voice Conversion with Attention and Context Preservation Mechanisms》,《Sequence-toSequence Acoustic Modeling for Voice Conversion》,《Improving Sequence-to-sequence Voice Conversion by Adding Text-supervision》,《Non-Parallel Sequenceto-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations》,《Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams》,《Hierarchical sequence to sequence voice conversion with limited data》,《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》),要么基于卷积神经网络( CNNs )(《ConvS2SVC: Fully convolutional sequence-to-sequence voice conversion》)。
近年来,在自动语音识别( ASR )(《Speech-Transformer: A NoRecurrence Sequence-to-Sequence Model for Speech Recognition》)、语音翻译( ST )(《End-to-End Speech Translation with the Transformer》,《Enhancing Transformer for End-to-end Speech-to-Text Translation》)和文本到语音( TTS )(《Neural Speech Synthesis with Transformer Network》)等各种语音处理任务中, Transformer 架构(《Attention is All you Need》)已经被证明能够有效地执行(《A comparative study on transformer vs RNN in speech applications》)。
在注意力机制的基础上,该 Transformer 通过避免使用循环层来实现并行训练,并通过使用多头自我注意而不是卷积层来提供跨越整个输入的接受域。
尽管如此,上述成功利用 Transformer 架构的语音应用程序都试图在文本和声学特征序列之间找到映射。
相反, VC 尝试在声学框架之间映射,其高时间分辨率带来了计算记忆成本和准确注意力学习方面的挑战。
尽管有很好的结果, seq2seq VC 模型有两个主要的问题。
首先, seq2seq 模型通常需要大量的训练数据,但大规模的平行语料库,即源说话者和目标说话者表达的语言内容相同的成对语音样本,是不现实的。
其次,正如(《Improving Sequence-to-sequence Voice Conversion by Adding Text-supervision》)中所指出的,转换后的语音经常会出现读音错误和音素、跳过音素等不稳定问题。已经提出了几种技术来解决这些问题。
在(《Sequence-to-Sequence Acoustic Modeling for Voice Conversion》)中,使用预先训练的 ASR 模块提取语音后音图( PPGs )作为额外的线索,而在(《Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams》)中, PPGs 仅作为输入。
也有人提出使用上下文保留丢失和引导注意力丢失(《Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention》)来稳定训练(《ATTS2S-VC: Sequence-to-sequence Voice Conversion with Attention and Context Preservation Mechanisms》,《ConvS2SVC: Fully convolutional sequence-to-sequence voice conversion》)。
使用额外的文本标签将多任务学习和数据增强整合到(《Improving Sequence-to-sequence Voice Conversion by Adding Text-supervision》)中,以提高数据效率,并在(《Non-Parallel Sequenceto-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations》)中解除语言和说话者表示,以实现非并行训练,从而消除了对并行语料库的需要。
在(《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》)中,一个大型的手工转录语料被用来从多对一(归一化) VC 模型的 TTS 模型生成人工训练数据,其中多任务学习也被使用。
处理有限训练数据问题的一种常用方法是迁移学习,即利用大量领域外数据的知识来帮助目标领域的学习。
近年来,由于社区贡献了大量的大规模语料库, TTS 系统特别是神经 seq2seq 模型取得了巨大的成功。
我们认为,这些 TTS 模型的核心是生成有效中间表征的能力,这有助于正确的注意力学习,从而连接编码器和解码器。
TTS 的迁移学习已经成功地应用于说话者适应等任务(《Neural voice cloning with a few samples》,《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》,《Sample efficient adaptive text-to-speech》,《ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Text-toSpeech Toolkit》)。
在(《Bootstrapping non-parallel voice conversion from speaker-adaptive text-to-speech》)中,第一次尝试将这种技术应用到 VC 中是通过从预先训练的说话人自适应 TTS 模型中引导一个非并行 VC 系统。
在本研究中,我们提出了一种新颖而简单的前训练技术来转移学习过的 TTS 模型中的知识。
为了传递核心能力,即精细表示的生成和利用,需要编码器和解码器的知识。
因此,我们分步骤对它们进行预训练:首先,利用大规模的 TTS 语料库对传统的 TTS 模型进行预训练。
TTS 训练确保了一个经过良好训练的解码器能够产生具有正确隐藏表示的高质量语音。
由于编码器必须经过预先训练,以将输入语音编码为解码器可以识别的隐藏表示,因此我们以自动编码器风格训练编码器,并固定预先训练的解码器。
这是通过一个简单的重建损失来实现的。
我们证明了用上述预训练的模型参数初始化的 VC 模型即使在非常有限的训练数据下也能产生高质量、高清晰度的语音。
我们在这项工作中的贡献如下:
• 我们将 Transformer 网络应用到 VC 中。据我们所知,这是研究这种组合的第一个工作。
• 提出了一种面向 VC 的 TTS 预训练技术。预训练过程为快速、样本高效的 VC 模型学习提供了先验条件,从而减少了对数据大小的要求和训练时间。在本研究中,我们通过将基于 Transformer 的 TTS 模型中的知识转移到基于 Transformer 的 VC 模型中来验证该方案的有效性。
2 背景
2.1 序列到序列语音合成
Seq2seq 模型用于寻找一个源特征序列 x 1 : n = ( x 1 , . . . , x n ) x_{1:n} = (x_1,...,x_n) x1:n=(x1,...,xn) 与一个目标特征序列 y 1 : m = ( y 1 , . . . , y m ) y_{1:m} = (y_1,...,y_m) y1:m=(y1,...,ym) 之间的映射,而目标特征序列的长度不一定相同,即 n ≠ m n \neq m n=

本文提出了一种基于Transformer的序列到序列语音转换模型,利用文本到语音预训练技术提高数据效率和语音质量。该方法通过两阶段训练策略,先在大规模TTS语料上预训练编码器和解码器,再在少量VC数据上微调,实现了高保真、高清晰度的语音转换。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



