【论文学习笔记】《Deep Voice: Real-time Neural Text-to-Speech》

该论文介绍了DeepVoice1,一个完全基于深度学习的文本到语音系统,实现了生产级别的语音合成。系统包括字素到音素、分割、音素时长和基频模型以及音频合成模型。通过神经网络,DeepVoice1简化了传统TTS系统,减少了特征工程需求。在推理速度上,DeepVoice1在CPU和GPU上实现了实时或超实时的音频合成,展示了高效WaveNet推理内核。该系统在不同数据集上表现出良好的性能,为端到端神经语音合成奠定了基础。

Deep Voice 1 论文学习

  1 简介

       这篇文章介绍了 Deep Voice ,一个完全由深度神经网络构建的生产质量的文本到语音系统,为真正的端到端神经语音合成奠定了基础。
       
       该系统包括五个主要的模块:定位音素边界的分割模型、字素-音素转换模型、音素时长预测模型、基频预测模型和音频合成模型。
       
       在音素分割模型中,论文提出了一种基于深度神经网络的音素边界检测方法。
       对于音频合成模型,论文实现了一个不同的 WaveNet ,它需要的参数更少,比原来的训练更快。
       
       通过为每个组件使用神经网络,论文提出的系统比传统的文本到语音系统更简单、更灵活;在传统的系统中,每个组件都需要费力的特征工程和广泛的领域专业知识。

       
       最后,论文提出的系统可以比实时更快地执行推理,并描述了 CPUGPU 上优化的 WaveNet 推理内核,比现有的实现可达到400倍的速度。

       
        Deep Voice 是受传统的文本-语音管道的启发,采用相同的结构,但用神经网络取代所有组件,使用更简单的特征:首先将文本转换为音素,然后使用音频合成模型将语言特征转换为语音。
       
       与之前的工作不同(使用手工设计的特征,如光谱包络、光谱参数、非周期参数等),系统中唯一的特征是:带有重音标注的音素、音素持续时间和基频(F0)。
        这种特性的选择使系统更容易适用于新的数据集、声音和领域,而不需要任何手动数据注释或额外的特性工程。
       
        论文们通过在一个全新的数据集上重新训练整个管道,而不修改任何超参数来演示这一声明,该数据集只包含音频和未对齐的文本副本,并生成相对高质量的语音。
        在传统的 TTS 系统中,这种调整需要几天到几周的时间,而 Deep Voice 只需要几个小时的人工工作和模型训练时间。
       
       实时推理是生产质量TTS系统的要求;如果没有它,系统就不能用于大多数TTS的应用。先前的工作已经证明,WaveNet 就可以产生接近人类水平的语音。
       然而,由于 WaveNet 模型的高频、自回归特性,波网推理提出了一个令人生畏的计算问题,迄今为止还不知道这种模型是否可以用于生产系统。
       我们肯定地回答了这个问题,并演示了高效、比实时的 WaveNet 推断内核,产生高质量的 16khz 音频,并实现了比以前的 WaveNet 推断实现 400 倍的加速。

       

  2 相关研究

       之前的研究使用神经网络替代多个TTS系统组件,包括字素-音素转换模型,音素持续时间预测模型,基础频率预测模型和音频合成模型。
       然而,与 Deep Voice 不同的是,这些系统都不能解决 TTS 的全部问题,许多系统使用专门为其领域开发的手工工程特性。
       
       最近,在参数音频合成方面有很多工作,特别是 WaveNetSampleRNNChar2Wav
       虽然 WaveNet 可以用于条件和无条件音频产生,但 SampleRNN 只用于无条件音频产生。 Char2Wav 用一个基于注意的音素持续时间模型和等效的 F0 预测模型扩展了 SampleRNN ,有效地为基于 SampleRNN 的声码器提供了本地条件信息。
       
        Deep Voice 在几个关键方面与这些系统不同,显著地增加了问题的范围。
       首先, Deep Voice 是完全独立的;训练新的 Deep Voice 系统不需要预先存在的 TTS 系统,可以使用短音频剪辑数据集和相应的文本文本从头开始。相反,复制上述两个系统都需要访问和理解已存在的 TTS 系统,因为它们在训练或推理时使用来自另一个 TTS 系统的特性。
       其次, Deep Voice 最大限度地减少了人工工程功能的使用;它使用单热编码字符进行字素到音素的转换、单热编码的音素和重音、音素持续时间(毫秒)和标准化对数基频(可以使用任何 F0 估计算法从波形计算)。
       
       所有这些都可以很容易地从音频和文本以最小的努力获得。相比之下,以前的工作使用了更复杂的特性表示,如果没有预先存在的 TTS 系统,就不可能有效地复制系统。
        WaveNetTTS 系统使用多个特性,包括价值观如一个词的音节数量,位置词的音节,当前帧的音素,语音频谱的和动态特征光谱和激发参数,以及它们的衍生品。
        Char2Wav 依赖世界 TTS 系统的声码器特征来预训练他们的对齐模块,其中包括 F0 、光谱包络和非周期参数。
       
       最后,我们关注于创建一个可用于生产的系统,这要求我们的模型实时运行以进行推理。 Deep Voice 可以在几分之一秒内合成音频,并提供了合成速度和音频质量之间的可调平衡。
       相比之下,以前的 WaveNet 结果需要几分钟的运行时间才能合成一秒钟的音频。 SampleRNN 原始出版物中描述的 3 层架构在推理过程中需要的计算量大约是我们最大的 WaveNet 模型的 4-5 倍,所以实时运行模型可能会很有挑战性。
       

  3 TTS 系统组件

       TTS系统由五个主要的构建模块组成:
       字素到音素模型:将书面文本(英语字符)转换为音素(使用像ARPABET这样的音素字母表编码)。
       分割模型:对语音数据集中的音素边界进行定位。给定一个音频文件和音频的一个音素逐音素转录,分割模型确定每个音素在音频中的起始和结束位置。
       音素持续时间模型:预测音素序列(一句话)中每个音素的时间持续时间。
       基频模型:预测一个音素是否被发声;如果是,该模型预测整个音素持续时间的基频(F0)。
       音频合成模型:将字素到音素、音素持续时间和基频预测模型的输出组合,并以与所需文本相对应的高采样率合成音频。
  &

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值