Tacotron 论文学习
文章目录
摘要
文本-语音合成系统通常由多个阶段组成,例如文本分析前端、声学模型和音频合成模块。构建这些组件通常需要广泛的领域专业知识,并可能包含脆弱的设计选型。
在本文中,我们提出了 Tacotron ,一个端到端生成文本到语音模型,直接从字符合成语音。
给出 <文本,音频> 数据对,通过随机初始化,模型可以完全从零开始训练。
我们提出了几个关键的技术,使序列到序列框架在这一具有挑战性的任务中表现良好。
Tacotron 在美式英语的主观五级平均意见得分为 3.82 分,在自然度方面优于产品参数化系统。
此外,由于 Tacotron 在帧级生成语音,它实质上比样本级自回归方法快。
1 简介
现代文本到语音( TTS )管道非常复杂(《Text-to-speech synthesis》)。
例如,统计参数 TTS 通常具有提取各种语言特征的文本前端、持续时间模型、声学特征预测模型和基于复杂信号处理的声码器(《Vocaine the vocoder and applications in speech synthesis》)。
这些组件基于广泛的领域专家知识,设计起来很费力。
它们也是独立训练的,所以每个成分的错误可能会复合。
现代 TTS 设计的复杂性导致在构建新系统时需要大量的工程成本。
因此,集成的端到端 TTS 系统有许多优点,可以在文本、音频对上使用最少的人工注释进行训练。
首先,这样的系统减轻了费力的特征工程的需要,这可能涉及启发式和脆弱的设计选择。
其次,它更容易允许对各种属性进行丰富的条件设置,比如说话者或语言,或者像情绪这样的高级特性。
这是因为条件作用可以发生在模型的最开始,而不是只发生在某些组件上。
同样,适应新数据也可能更容易。
最后,单个模型可能比多阶段模型更有鲁棒性,在多阶段模型中,每个组成部分的误差可能复合。
这些优势意味着端到端模型可以让我们在现实世界中发现的大量丰富、富有表现力但经常有噪声的数据上进行训练。
TTS 是一个大规模的反问题:一个高度压缩的源(文本)被解压成音频。
由于相同的文本可能对应不同的发音或说话风格,这对端到端模型来说是一项特别困难的学习任务:它必须应对给定输入信号水平上的巨大变化。
此外,与端到端语音识别(《Listen, attend and spell: A neural network for large vocabulary conversational speech recognition》)或机器翻译(《Google s neural machine translation system: Bridging the gap between human and machine translation》)不同, TTS 输出是连续的,输出序列通常比输入序列长得多。
这些属性会导致预测错误迅速累积。
在本文中,我们提出了一种基于序列对序列(seq2seq) (《Sequence to sequence learning with neural networks》)和注意范式(《Neural machine translation by jointly learning to align and translate》)的端到端生成 TTS 模型 Tacotron 。
我们的模型以字符作为原始谱图的输入和输出,使用了几种技术来提高 vanilla seq2seq 模型的能力。
给定<音频, 文本>对, Tacotron 可以完全从头开始随机初始化训练。
它不需要音素水平的校准,所以它可以很容易地扩展到使用大量的声学数据与转录本。
使用简单的波形合成技术, Tacotron 在一个美式英语评估集上产生 3.82 的平均意见得分( MOS ),在自然度方面优于参数生产系统。
2 相关工作
WaveNet 是一个强大的音频生成模

Tacotron是一种端到端的文本到语音模型,旨在简化传统TTS系统的复杂性,避免手工特征工程。模型直接从字符生成音频,采用seq2seq框架,结合注意力机制。关键组件包括CBHG模块、编码器、解码器和后处理网络。CBHG用于提取文本特征,解码器则基于注意力进行谱图生成。实验显示,Tacotron在美式英语上的平均意见得分优于参数化系统,且具备更快的合成速度。未来的研究将关注模型的改进和波形合成质量的提升。
最低0.47元/天 解锁文章
1696

被折叠的 条评论
为什么被折叠?



