《FastSpeech 2: Fast and High-Quality End-to-End Text-to-Speech》论文学习
文章目录
摘要
先进的文本到语音(TTS)模型,如FastSpeech(《Fastspeech: Fast, robust and controllable text to speech》),可以明显更快地合成语音,比以前的自回归模型具有相同的质量。FastSpeech模型的训练依赖于自回归教师模型进行时长预测(以提供更多的信息作为输入)和知识提炼(以简化输出中的数据分布),可以缓解TTS中的一对多映射问题(即多个语音变体对应同一文本)。
然而,FastSpeech有几个缺点:1)教师-学生蒸馏管道复杂;2)从教师模型提取的持续时间不够准确,教师模型提取的目标梅尔频谱图由于数据简化而存在信息丢失的问题,限制了语音质量。
在本文中,我们提出了FastSpeech 2,它解决了FastSpeech中的问题,更好地解决了TTS中的一对多映射问题,通过(1)直接用真实的目标训练模型,而不是教师的简化输出;(2)引入更多的语音变化信息(如音调、能量和更准确的持续时间)作为条件输入。
具体来说,我们从语音波形中提取时长、音高和能量,在训练时直接作为条件输入,在推理时使用预测值。我们进一步设计了FastSpeech 2s,这是第一次尝试直接从文本并行生成语音波形,享受完整的端到端训练的好处,甚至比FastSpeech更快的推理。
实验结果表明:(1)FastSpeech 2/2s在语音质量上优于FastSpeech,简化了训练管道,减少了训练时间;(2) FastSpeech 2/2s可以匹配自回归模型的语音质量,同时具有更快的推理速度。
1 介绍
近年来,基于神经网络的文本语音转换(TTS)得到了快速的发展。以前神经TTS模型如Tacotron (《Tacotron: Towards end-to-end speech synthesis》), Tacotron 2 (《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》),Deep Voice 3 (《Deep voice 3: 2000-speaker neural text-to-speech》)和Transformer TTS (《Neural speech synthesis with transformer network》)首先从文本中自回归生成梅尔频谱图,然后使用单独训练的声码器从生成的梅尔频谱图合成语音(例如,WaveNet (《Wavenet: A generative model for raw audio》), WaveGlow (《Waveglow: A flow-based generative network for speech synthesis》)和Parallel WaveGAN (《Parallel wavegan: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram》))。它们通常具有较慢的推理速度和健壮性(跳过单词和重复)问题(《Fastspeech: Fast, robust and controllable text to speech》)。近年来,非自回归TTS模型(《Jdi-t: Jointly trained duration informed transformer for text-to-speech without explicit alignment》,《Flowtts: A non-autoregressive network for text to speech based on flow》,《Parallel neural text-to-speech》,《Fastspeech: Fast, robust and controllable text to speech》)被设计用于解决这些问题,它以极快的速度生成梅尔频谱图,避免了鲁棒性问题,同时实现了与以往自回归模型相当的语音质量。
2 方法
在本节中,我们首先描述了FastSpeech 2的设计动机,然后介绍了FastSpeech 2的体系结构,旨在改进FastSpeech,以更简单的训练管道和更高的语音质量更好地处理一对多映射问题。
2.1 动机
TTS是典型的一对多映射问题(《An asymetric cycle-consistency loss for dealing with many-to-one mappings in image translation: A study on thigh mr scans》,《One-to-many neural network mapping techniques for face image synthesis》,《Toward multimodal image-to-image translation》),由于语音音频的不同变化,如音高、持续时间、音量和韵律,多个可能的语音序列可以对应一个文本序列。在自回归TTS中,解码器可以根据文本序列和之前的梅尔频谱图来预测下一个梅尔频谱图,而之前的梅尔频谱图可以提供一些变异信息,从而在一定程度上缓解了这一问题。而在非自回归TTS中,唯一的输入信息是文本,不足以完全预测语音中的方差。在这种情况下,模型容易对训练集中目标语音的变化进行过拟合,导致泛化能力较差。
FastSpeech设计了两种方法来缓解一对多映射问题:(1)通过目标方的知识精馏来减少数据变量,通过对目标进行简化来缓解一对多映射问题;(2)引入持续时间信息(从教师模型的注意图中提取),扩展文本序列以匹配梅尔频谱图序列的长度,提供更多的输入信息,缓解一对多映射问题。
虽然从教师模型中提取的知识提炼和时长信息可以提高FastSpeech的训练效果,但也带来了几个问题:(1)两阶段的师生训练管道使得训练过程变得复杂;(2)从教师模型中提取的目标梅尔频谱图与真实频谱图相比有一定的信息损失,因为生成的梅尔频谱图合成的音频质量通常比真实频谱图差,如表1所示;(3)从教师模型的注意图中提取的时长不够准确,分析如表4a所示。
在FastSpeech 2中,我们通过以下方法解决了这些问题:(1)去除教师-学生蒸馏,以简化培训流程;(2)以真实语音为训练目标,避免信息丢失;(3)提高持续时间精度,引入更多的方差信息,以缓解地面真实语音预测中的一对多映射问题。在接下来的小节中,我们将介绍FastSpeech 2的详细设计。
2.2 模型概述
FastSpeech 2的整体模型架构如图1a所示。编码器将音素序列转换为隐藏序列,变量适配器将不同的变量信息(如持续时间、音高和能量)添加到隐藏序列中,梅尔谱解码器将自适应的隐藏序列并行转换为梅尔谱序列。我们使用前馈 Transformer块作为编码器和梅尔谱图解码器的基本结构,它是一个自注意(《Attention is all you need》)层和一维卷积的堆栈,就像FastSpeech中的(《Fastspeech: Fast, robust and controllable text to speech》)。与依赖教师-学生蒸馏管道和教师模型的音素持续时间的FastSpeech不同,FastSpeech 2做了几个改进。
首先,我们去掉了师生蒸馏管道,直接使用真实的梅尔谱图作为模型训练的目标,避免了梅尔谱图中信息的丢失,增加了语音质量的上界。
其次,我们的变量适配器不仅包括长度调节因子,还包括音调和能量预测因子,其中:(1)长度调节因子使用强制对齐(《Montreal forced aligner: Trainable text-speech alignment using kaldi》)获得的音素持续时间,比自回归教师模型提取的音素持续时间更准确;(2)附加的基音和能量预测器可以提供更多的变量信息,这对于解决TTS中的一对多映射问题非常重要。
&nb

《FastSpeech2:FastandHigh-QualityEnd-to-EndText-to-Speech》论文提出了一种新的文本转语音(TTS)模型FastSpeech2,解决了FastSpeech的训练复杂性和语音质量不足的问题。FastSpeech2通过直接使用真实梅尔频谱图进行训练,增强了模型的语音质量,同时引入了更精确的音调、能量和持续时间信息,以更好地处理TTS中的一对多映射问题。实验结果显示,FastSpeech2在语音质量和训练速度上均优于FastSpeech,且其端到端变体FastSpeech2s在推理速度上显著提升,同时保持了与自回归模型相当的语音质量。
最低0.47元/天 解锁文章
1277

被折叠的 条评论
为什么被折叠?



