【论文学习笔记】《AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss》

AUTOVC是一种非并行多对多语音转换算法,仅使用自动编码器损失进行训练,实现了零样本语音转换。通过精心设计的信息限制,它能在不牺牲重构质量的情况下去除源说话人的风格信息,从而达到分布匹配的转换。在VCTK语料库上的实验显示,AUTOVC在传统多对多转换和零样本转换任务上均优于现有方法,其自然度接近并行转换系统,且在未见过的说话人之间转换时表现出良好的性能。

《AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss》论文学习

  摘要

       非并行多对多语音转换,以及零样本语音转换,仍然是未开发的领域。
       深度传递算法,如生成对抗网络( GAN )和条件变分自编码( CVAE ),作为这一领域的新解决方案正在得到应用。
       然而, GAN 训练是复杂和困难的,并没有强有力的证据表明其生成的语音具有良好的感知质量。
       另一方面, CVAE 训练简单,但不具有 GAN 的分布匹配特性。
       在本文中,我们提出了一种新型的传输方案,它只涉及一个具有精心设计的限制器的自动编码器。
       我们正式证明了该方案仅在自构造损失的基础上通过训练就能实现分布匹配风格的迁移。
       在此基础上,我们提出了基于非并行数据的多对多语音转换技术,并首次实现了零样本语音转换。
       

  1 介绍

       在动作电影和小说电影中,用别人的声音说话的想法永远都是一个吸引人的元素,它也在许多实际应用中找到了方法,例如隐私和身份保护,创意产业等。
       在语音研究领域,这个任务被称为语音转换问题,它涉及到修改来自源说话人的给定语音,以匹配目标说话人的声音质量。
       
       尽管在语音转换方面的研究仍在继续,但仍有三个问题有待探索。
       首先,大多数语音转换系统都假定有并行训练数据,即两个说话人说出相同句子的语音对。只有少数能够接受非并行数据的训练。
       其次,在少数处理非并行数据的现有算法中,能够用于多对多转换的算法就更少了,即从多个源说话人转换为多个说话人。
       最后但并非最不重要的是,没有语音转换系统能够执行零样本转换,即仅通过观察一个未见过的说话人的少数话语就转换成他/她的声音。
       
       随着深层风格转换的发展,传统的语音转换问题正被重新定位为风格转换问题,将音质视为风格,将说话人视为领域。
       有许多风格的传输算法不需要并行数据,并且适用于多个领域,因此它们很容易作为语音转换的新解决方案。
       特别是生成式对抗网络( GAN ) (《Generative adversarial nets》)和条件变分自编码器( CVAE ) (《Auto-encoding variational bayes》,《Semi-supervised learning with deep generative models》),在语音转换中越来越受欢迎。
       
       然而, GANCVAE 都不是完美的。
        GAN 给出了一个很好的理论证明,生成的数据将与真实数据的分布相匹配,并取得了最先进的结果,特别是在计算机视觉方面。
       然而,人们普遍认为 GAN 是很难训练的,并且它的收敛性是脆弱的。
       此外,尽管有越来越多的研究将 GAN 引入语音生成(《Adversarial audio synthesis》)和语音域转移(《Segan: Speech enhancement generative adversarial network》,《Generative adversarial source separation》,《SVSGAN: Singing voice separation via generative adversarial network.》,《A multi-discriminator cyclegan for unsupervised nonparallel speech domain adaptation》),没有强有力的证据表明生成的语音听起来真实。
       能够糊弄辨别器的声音,还没有糊弄人的耳朵。
       另一方面, CVAE 更容易训练。
       它所需要做的就是进行自我重构,最大化输出概率的变分下界。
       直观的感觉是推断出一个假设的与样式无关的隐藏变量,然后将其与新的样式信息结合起来,生成样式传递的输出。
       然而, CVAE 本身并不能保证分布匹配,而且转换输出往往过平滑(《Stargan-vc: Non-parallel many-to-many voice conversion with star generative adversarial networks》)。
       
       由于缺乏合适的风格转换算法,现有的语音转换系统还没有产生令人满意的效果,这自然地引出了以下问题。
       是否有一种风格转换算法,可以证明与 GAN 的分布相匹配,可以像 CVAE 一样容易训练,并且对语音更有效?
       
       在此基础上,本文提出了一种新的样式传输方案,它只涉及一个带有精心设计的限制器的普通自动编码器。
       与 CVAE 相似,该方案只需要对自我重建损失进行训练,但具有类似 GANs 的分布匹配特性。
       这是因为,正确设计的限制器将学会从源头上去除风格信息,获得风格独立的编码,这是 CVAE 的目标,但 CVAE 的培训方案并不能保证。
       
       在此基础上,我们提出了一种无并行数据的多对多语音传输算法 —— AUTOVC
        AUTOVC 遵循自动编码器框架,只对自动编码器损耗进行训练,但它引入了精心调整的降维和时间下采样来约束信息流。
       正如我们将展示的那样,这个简单的方案带来了显著的性能提高。
       在传统的多对多转换任务中, AUTOVC 实现了优越的性能,其中所有的说话人都可以在训练集中看到。
       此外,还配备了一个经过训练的说话人嵌套表来验证说话人 (《End-to-end text-dependent speaker verification》,《Generalized end-to-end loss for speaker verification》), AUTOVC 在执行零样本语音转换的良好性能方面表现优异。
       考虑到结果的质量和训练方案的简单性, AUTOVC 为更简单更好的语音转换和一般风格转换系统开辟了一条新的道路。该实现将向公众开放。
       

  2 相关工作

       利用 VAE 进行非并行多对多语音转换并将其与对抗性训练相结合,已有若干研究成果。
        VAE-VC (《Voice conversion from non-parallel corpora using variational auto-encoder》)是一种使用 VAE 的简单语音转换系统。之后,研究主要集中在如何从 VAE 代码中去除风格信息上。
       之后,研究主要集中在如何从 VAE 代码中去除风格信息上。
        VAW-GAN (《Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks》)在 VAE 输出上引入 GAN
        CDVAE-VC (《Voice conversion based on cross-domain features using variational auto encoders》)在两个光谱特征上引入两个 VAEs ,并迫使两个特征的潜码包含相似的信息。
        ACVAE-VC (《Acvaevc: Non-parallel many-to-many voice conversion with auxiliary classifier variational autoencoder》)在输出上引入辅助分类器,以鼓励转换结果被正确分类为目标说话者的话语。
       (《Multitarget voice conversion without parallel data by adversarially learning disentangled audio representations》)在代码上引入一个分类器,在输出上引入一个 GAN
       同样, StarGAN (《Parallel-data-free voice conversion using cycle-consistent adversarial networks》)和 CycleGAN (《Unpaired image-to-image translation using cycle-consistent adversarial networks》),由带有 GAN 的编码器-解码器架构组成,应用于语音转换(《Stargan-vc: Non-parallel many-to-many voice conversion with star generative adversarial networks》,《High-quality nonparallel voice conversion based on cycle-consistent adversarial network》)。
        GAN 单独也应用于语音转换(《Voice impersonation using generative adversarial networks》)。
       然而,这些算法的转换质量仍然有限。
       引入文本转录来辅助潜码的学习(《A KL divergence and DNN-based approach to voice conversion without parallel training sentences.》,《Nonparallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors》,《Parrotron: An end-to-end speech-to-speech conversion model and its applications to hearing-impaired speech and speech separation》),但我们将关注不需要文本转录的语音转换,这对于低资源语言更灵活。
       
       (《Look ma, no GANs! image transformation wit

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值