【论文学习】《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》

基于说话人验证的多说话人TTS合成:神经网络迁移学习与泛化研究
本文介绍了一种利用神经网络的多说话人文本到语音(TTS)合成系统,通过独立训练的说话人编码器从少量样本中学习说话人特性,并将这些知识迁移到多说话人合成任务中。实验展示了模型在语音自然度、说话人相似度和验证任务中的表现,以及对说话人嵌入空间的理解。关键发现包括训练说话人数量对质量的影响及虚构说话人生成的可行性。

《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》论文学习

  摘要

       我们描述了一种基于神经网络的文本到语音(TTS)合成系统,该系统能够在不同的说话人的声音中生成语音音频,包括那些在训练期间未见过的说话人。我们的系统由三个独立训练的组件组成:(1)一个说话人编码器网络,在一个说话人验证任务中使用一个独立的数据集,该数据集包含不含数千个说话人的文本的嘈杂语音,从目标说话人的仅几秒参考语音生成一个固定维的嵌入向量;(2)基于Tacotron 2的序列到序列合成网络,以说话人嵌入为条件,从文本生成语音谱图;(3)一种基于自回归WaveNet网络的声码器网络,可将mel谱图转换为时域波形样本。
       我们证明,该模型能够将经过鉴别训练的说话人编码器学习到的说话人变异性知识转移到多说话人的TTS任务中,并能够从训练中未见过的说话人合成自然语音。为了获得最佳的泛化性能,我们量化了在一个大而多样的说话人集合上训练说话人编码器的重要性。最后,我们证明了随机采样的说话人嵌入可以在不同于训练中使用的说话人的声音中合成语音,表明该模型学习了高质量的说话人表示。
       

  1 介绍

       本工作的目标是建立一个能够以数据高效的方式为各种说话人生成自然语音的TTS系统。我们专门解决了零样本学习设置,其中几秒钟的未转录参考音频从目标发言人的声音合成新的语音,而不更新任何模型参数。这类系统具有可访问性应用程序,例如恢复与失去声音因而无法提供许多新的训练示例的用户自然交流的能力。
       它们还可以支持新的应用程序,如跨语言传输语音以实现更自然的语音对语音翻译,或在低资源设置下从文本生成真实的语音。然而,同样重要的是要注意到这种技术可能被滥用,例如未经他人同意就模仿他人的声音。为了解决与(《Artificial Intelligence at Google – Our Principles》)等原则一致的安全问题,我们验证了所提出的模型生成的声音可以很容易地与真实的声音区分开来。
       
       合成自然语音需要对大量高质量的语音文本对进行训练,支持多个说话人通常使用每个说话人(《Deep Voice 2: Multi-speaker neural text-to-speech》)几十分钟的训练数据。为许多说话人记录大量高质量数据是不切实际的。我们的方法是将说话人建模与语音合成分离,方法是独立训练一个说话人识别的嵌入网络,该网络捕获说话人特征的空间,并以第一个网络学习的表示为条件,在更小的数据集上训练高质量的TTS模型。
       解耦网络使它们能够在独立的数据上进行训练,从而减少了获得高质量多说话人训练数据的需要。我们在一个说话人验证任务中训练说话人嵌入网络,以确定两个不同的话语是否出自同一说话人之口。与后续的TTS模型不同的是,该网络是针对包含大量混响和背景噪声的未转录语音进行训练的。
       
       我们证明了说话人编码器和合成网络可以在不平衡和不相交的说话人集合上训练,并且仍然具有很好的泛化性。我们在1.2K说话人数据集上训练合成网络,结果表明,在更大的18K说话人数据集上训练编码器可以提高自适应质量,并进一步使从嵌入之前的采样合成完全新颖的说话人成为可能。
       
       人们对TTS模型的端到端训练非常感兴趣,该模型直接从文本-音频对中进行训练,而不依赖于手工制作的中间表示(《Char2Wav: End-to-end speech synthesis》,《Tacotron: Towards end-to-end speech synthesis》)。Tacotron 2(《Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions》)使用WaveNet(《WaveNet: A generative model for raw audio》)作为声码器,将关注(《Neural machine translation by jointly learning to align and translate》)的编解码器结构生成的谱图进行反相,将Tacotron(《Tacotron: Towards end-to-end speech synthesis》)韵律与WaveNet的音质相结合,获得接近人类语言的自然感。它只支持一个说话人。
       
       Gibiansky等人(《Deep Voice 2: Multi-speaker neural text-to-speech》)引入了Tacotron的多说话人变体,为每个训练说话人学习了低维说话人嵌入。Deep Voice 3(《Deep Voice 3: 2000-speaker neural text-to-speech》)提出了一个完全卷积的编码器-解码器架构,扩大到支持超过2400个来自LibriSpeech(《LibriSpeech: an ASR corpus based on public domain audio books》)的说话人。
       
       这些系统学习一组固定的说话者嵌入,因此只支持在训练中看到的声音的合成。相比之下,VoiceLoop(《VoiceLoop: Voice fitting and synthesis via a phonological loop》)提出了一种基于固定大小的内存缓冲区的新体系结构,可以从训练过程未见过的声音中生成语音。要想取得好成绩,新说话人需要数十分钟的源语音和语音转录。
       
       最近的扩展已经启动了少样本说话人适应,每个说话人(没有文本)只有几秒钟的讲话,就可以用来生成新的讲话在该说话人的声音。(《Neural voice cloning with a few samples》)扩展了Deep Voice 3,将类似VoiceLoop的说话人自适应方法与使用神经网络直接从声谱图预测说话人嵌入的说话人编码方法进行了比较。VoiceLoop的模型参数(包括说话人嵌入)是根据少量自适应数据进行微调的。后一种方法显著提高了数据效率,使用少量的自适应数据获得更高的自然度,仅在一两个话语中。它的计算效率也显著提高,因为它不需要数百次反向传播迭代。
       
       Nachmani等人(《Fitting new speakers based on a short untranscribed sample》)类似地扩展了VoiceLoop,利用目标说话人编码网络来预测说话人嵌入。该网络与使用对比三联体损耗的合成网络联合训练,以确保从同一说话人的话语中预测的嵌入比从不同说话人的话语中计算的嵌入更接近。此外,为了保证合成语音编码与自适应语音具有相似的嵌入特征,还采用了周期一致性损失算法。
       
       一个类似的谱图编码器网络,在没有三连音损失的情况下训练,被证明可以将目标韵律转移到合成语音(《Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron》)。在这篇文章中,我们证明了训练一个类似的编码器来区分说话人会导致可靠的说话人特征转移。
       我们的工作与(《Neural voice cloning with a few samples》,《Fitting new speakers based on a short untranscribed sample》)中的说话人编码模型最相似,除了我们使用了一个独立训练的网络,用于在来自数万个说话人的未转录音频的大数据集上进行说话人验证任务,使用的是最先进的通用端到端损失(《Generalized end-to-end loss for speaker verification》)。(《Fitting new speakers based on a shor

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值