Deep Voice 2 论文学习
文章目录
摘要
本文介绍了一种利用低维可训练说话人嵌入增强神经文本到语音的技术,以从单个模型产生不同的声音。
作为起点,我们展示了针对单说话人神经 TTS 的两种最先进方法的改进: Deep Voice 1 和 Tacotron 。
我们引入了 Deep Voice 2 ,它基于与 Deep Voice 1 类似的管道,但构建了更高的性能构建块,并表现出较 Deep Voice 1 更显著的音频质量改进。
我们通过引入后处理神经声码器来改进 Tacotron ,并展示了显著的音频质量改进效果。然后,我们在两个多说话人 TTS 数据集上演示了用于 Deep Voice 2 和 Tacotron 的多说话人语音合成技术。
1 介绍
人工语音合成,通常称为文本到语音( TTS ),在技术接口、可访问性、媒体和娱乐等方面有多种应用。
大多数 TTS 系统都是用单个讲话者语音构建的,而通过拥有不同的语音数据库或模型参数来提供多个讲话者语音。
因此,与只支持单一语音的系统相比,开发支持多个语音的 TTS 系统需要更多的数据和开发工作。
在这项工作中,我们证明我们可以建立全神经的多说话人 TTS 系统,在不同的说话人之间共享绝大多数的参数。
我们证明,一个单一的模型不仅可以从多个不同的声音产生语音,而且与训练单说话者系统相比,每个说话者所需要的数据也明显较少。
具体而言,我们的贡献如下:
1. 我们提出了一种基于 Deep Voice 1 (《Deep voice: Real-time neural text-to-speech》)的改进架构: Deep Voice 2 ;
2. 我们介绍了一种基于 WaveNet (《Wavenet: A generative model for raw audio》)的声谱图到音频神经声码器,并将其与 Tacotron (《Tacotron: Towards end-to-end speech synthesis.》) 一起使用,作为 Griffin-Lim 音频生成器的替代品;
3. 以这两个单说话人模型为基线,我们通过在 Deep Voice 2 和 Tacotron 中引入可训练的说话人嵌入来演示多说话人神经语音合成。
本文的其余部分组织如下:
第二节讨论了相关的工作,以及使本文与之前工作做出不同贡献的原因;
第三节介绍了 Deep Voice 2 ,并凸显了与 Deep Voice 1 的区别;
第四节解释了神经 TTS 模型的说话人嵌入技术,并展示了 Deep Voice 2 和 Tacotron 架构的多说话人变体;
第五节第一部分通过平均意见评分( MOS )评估量化了单说话人 TTS 的改进,第二部分通过 MOS 评估和多说话人鉴别器精度度量给出了 Deep Voice 2 和 Tacotron 的综合音频质量;
第六节给出结论并对结果和未来工作进行讨论。
2 相关工作
我们按顺序讨论我们在第一节提出的每个相关工作,从单说话人神经语音合成开始,然后转向多说话人语音合成和生成模型质量度量。
关于单说话人的语音合成,深度学习已被用于各种各样的子组件,包括持续时间预测(《Fast, compact, and high quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices》),基本频率预测(《Median-based generation of synthetic speech durations using a non-parametric approach》),声学建模(《Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis》),以及自回归逐样本音频波形生成器(《SampleRNN: An unconditional end-to-end neural audio generation model》)
我们的贡献建立在最近的完全神经 TTS 系统方面的工作基础上,包括 Deep Voice 1 (《Deep voice: Real-time neural text-to-speech》)、 Tacotron(《Tacotron: Towards end-to-end speech synthesis.》)和 Char2Wav(《Char2wav: End-to-end speech synthesis》) 。
这些工作集中在构建单说话人 TTS 系统,而我们的论文则集中在扩展神经 TTS 系统,以在每个说话人的数据更少的情况下处理多个说话人。
我们的工作并不是第一次尝试多说话人 TTS 系统。
例如,在传统的基于 HMM 的 TTS 合成(《Robust speaker-adaptive hmm-based text-to-speech synthesis》)中,一个平均语音模型使用多个说话者数据进行训练,然后对其进行适配以适应不同的说话者。
基于 DNN 的系统(《On the training of DNN-based average voice model for speech synthesis》)也被用于构建平均语音模型, i-vector 表示说话人作为每个目标说话人额外的输入层和单独的输出层。
类似地,Fan等人(《Multi-speaker modeling and speaker adaptation for DNN-based TTS synthesis》)在不同说话人之间使用带有说话人相关的输出层预测声码器参数(如线谱对、非周期性参数等)的共享隐藏表达。

本文介绍了一种使用神经网络和可训练说话人嵌入的多说话人语音合成技术,DeepVoice2和Tacotron模型的改进版本。DeepVoice2通过改进的分割、持续时间、频率和语音模型提升音频质量,而引入说话人嵌入使得模型能在少量数据下处理多种声音。多说话人 Tacotron 则通过声码器改进和说话人编码器的集成提升合成效果。实验结果通过MOS和说话人鉴别器精度验证了模型的高质量和可区分性。
最低0.47元/天 解锁文章
1883

被折叠的 条评论
为什么被折叠?



