《Tacotron: Towards End-to-End Speech Synthesis》论文学习
文章目录
摘要
文本到语音合成系统通常包括多个阶段,如文本分析前端、声学模型和音频合成模块。构建这些组件通常需要广泛的领域专业知识,可能包含脆弱的设计选择。在本文中,我们提出了Tacotron,一个端到端生成文本到语音的模型,它可以直接从字符合成语音。给定<文本,语音>数据对,模型可以使用随机初始化完全从头开始训练。我们提出了几个关键技术,以使序列到序列框架执行这一具有挑战性的任务。Tacotron在美式英语上获得了3.82的主观MOS平均意见得分,在自然度方面超过了生产级参数系统。此外,由于Tacotron在帧级生成语音,它比样本级自回归方法快得多。
1 介绍
现代文本-语音(TTS)管道是复杂的(《Text-to-speech synthesis》)。例如,统计参数TTS通常有提取各种语言特征的文本前端、持续时间模型、声学特征预测模型和基于复杂信号处理的声码器(《Statistical parametric speech synthesis》,《Vocaine the vocoder and applications in speech synthesis》)。这些组件基于广泛的领域专业知识,并且设计起来很费力。它们也是独立训练的,所以每个组成部分的错误可能会叠加。现代TTS设计的复杂性导致在构建新系统时需要大量的工程工作。
因此,集成的端到端TTS系统有许多优点,可以在文本、音频上进行训练。与最少的人类注释配对。首先,这样的系统减轻了费力的特征工程的需要,这可能涉及启发式和脆弱的设计选择。其次,它更容易对各种属性(如说话人或语言)或高级特征(如情感)进行丰富的条件反射。这是因为条件作用可能发生在模型的最开始,而不是只发生在特定的组件上。同样,适应新数据可能也更容易。最后,单个模型可能比每个组件的错误可能复合的多阶段模型更健壮。这些优势意味着端到端模型可以让我们在现实世界中大量丰富的、有表现力的、但常常是嘈杂的数据上进行训练。
TTS是一个大规模的反问题:高度压缩的源(文本)被解压缩成音频。由于同一文本可以对应不同的发音或说话风格,这对于端到端模型来说是一项特别困难的学习任务:它必须处理给定输入信号水平上的巨大变化。此外,与端到端语音识别(《Listen, attend and spell: A neural network for large vocabulary conversational speech recognition》)或机器翻译(《Google s neural machine translation system: Bridging the gap between human and machine translation》)不同,TTS输出是连续的,输出序列通常比输入序列长得多。这些属性导致预测错误迅速累积。在本文中,我们提出了Tacotron,一种基于序列到序列(seq2seq)的端到端生成TTS模型(《Sequence to sequence learning with neural networks》)和注意范式(《Neural machine translation by jointly learning to align and translate》)。我们的模型以字符作为输入,原始谱图作为输出,采用多种技术来提高普通seq2seq模型的性能。给定<文本,语音>数据对,Tacotron可以通过随机初始化完全从零开始训练。它不需要音素水平的对齐,所以它可以很容易地扩展到使用大量的录音数据。通过一种简单的波形合成技术,Tacotron在美国英语评估集上产生了3.82的平均意见得分(MOS),在自然度方面超过了生产级参数系统。
2 相关工作
WaveNet (《WaveNet: A generative model for raw audio》)是一个强大的音频生成模型。它适用于TTS,但由于其样本级自回归的性质,运行速度较慢。它还需要对现有TTS前端的语言特征进行调节,因此不是端到端:它只是取代了声码器和声学模型。另一个最近开发的神经模型是DeepVoice (《Deep voice: Real-time neural text-to-speech》),它用相应的神经网络替代典型的TTS管道中的每个组件。但是,每个组件都是独立训练的,以端到端方式改变系统以训练是非常重要的。
据我们所知,《First step towards end-to-end parametric TTS synthesis: Generating spectral parameters with neural attention》是最早使用seq2seq关注端到端TTS的工作。然而,它需要一个预先训练的隐马尔可夫模型(HMM)对准器来帮助seq2seq模型学习对准。很难说seq2seq本身学习了多少对齐。其次,我们使用了一些技巧来训练这个模型,作者指出,这样做会损害韵律。第三,它预测声码器参数,因此需要一个声码器。此外,该模型是基于音素输入进行训练的,实验结果似乎有一定的局限性。
Char2Wav (《Char2Wav: End-to-end speech synthesis》)是一个独立开发的端到端模型,可以对角色进行训练。然而,Char2Wav仍然在使用SampleRNN神经声码器之前预测声码器参数(《SampleRNN: An unconditional end-to-end neural audio generation model》),而Tacotron直接预测原始谱图。另外,它们的seq2seq和SampleRNN模型需要分别进行预训练,但我们的模型可以从头开始训练。最后,我们对普通的seq2seq范例做了几个关键的修改。如后面所示,普通的seq2seq模型不能很好地用于字符级输入。
3 模型架构
Tacotron的主干是一个具有注意力的seq2seq模型(《Neural machine translation by jointly learning to align and translate》,《Grammar as a foreign language》)。图1描述了该模型,该模型包括编码器、基于注意的解码器和后处理网络。在高层次上,我们的模型以字符为输入,产生谱图帧,然后转换为波形。我们将在下面描述这些组件。

3.1 CBHG模块

我们首先描述一个名为CBHG的构建块,如图2所示。CBHG由一组一维卷积滤波器、高速网络(《Highway networks》)和双向门控循环单元(GRU) (《Empirical evaluation of gated recurrent neural networks on sequence modeling

介绍了Tacotron模型,这是一种端到端的文本到语音合成系统,能够直接从字符序列生成对应的语音谱图。该模型在美式英语上获得3.82的MOS平均意见得分,超过了生产级参数系统。
最低0.47元/天 解锁文章
1037

被折叠的 条评论
为什么被折叠?



