【论文学习】《FastPitch: Parallel Text-to-speech with Pitch Prediction》

FastPitch是一种基于FastSpeech的并行文本到语音模型,它预测音调轮廓以生成高质量的语音。模型通过条件基频预测解决了前馈Transformer的质量问题,实现了对音调的精细控制,可用于改变说话人情绪、强调词汇等。FastPitch在合成语音质量上与最先进的技术相当,且具有实时合成能力,支持多说话人场景。

《FastPitch: Parallel Text-to-speech with Pitch Prediction》论文学习

  摘要

       提出了基于FastSpeech的基于基频轮廓的全并行文本-语音模型FastPitch。该模型在推理过程中预测音调轮廓,并生成可进一步控制音调轮廓的语音。因此,快速音高可以改变说话人感知到的情绪状态,或强调某些词汇单位。我们发现,匀速提高或降低音高产生的语音类似于语音的自愿调制。对频率轮廓进行调节可以提高合成语音的质量,使其可以与最先进的技术相媲美。它没有引入开销,而且FastPitch保留了FastSpeech的有利的、完全并行的Transformer架构,具有类似于mels -scale谱图合成的速度,比实时快几个数量级。
       

  1 介绍

       神经文本到语音(TTS)系统的最新进展带来了自然发声、类人语音的实时合成。由于音频信号的高时间分辨率,主要的模型是自回归的和昂贵的计算。前馈模型能够比自回归模型更快地合成梅尔谱图。例如FastSpeech(《Fastspeech: Fast, robust and controllable text to speech》),它基于前馈Transformer(《BERT: Pre-training of deep bidirectional transformers for language understanding》),显式预测每个输入符号的持续时间,并并行推断整个谱图。前馈模型即使在输出帧与输入符号不完全对齐的条件下也能合成合理的声音。然而,这些模型仍然无法匹配自回归生成的质量,并在训练中提出了一些挑战(《Fastspeech: Fast, robust and controllable text to speech》,《AlignTTS: Efficient FeedForward Text-to-Speech System without Explicit Alignment》)。
       
       文本到语音模型通常取决于语音的附加质量,如语言特征和基本频率(《Wavenet: A generative model for raw audio》,《Parallel wavenet: Fast high-fidelity speech synthesis》)。将神经网络引入TTS使这些品质的精确建模成为可能。特别是,在连接模型(《Using deep bidirectional recurrent neural networks for prosodic-target prediction in a unit-selection text-to-speech system》)和后来的全神经模型中,使用神经网络建模的基频已多次被证明可以提高合成语音的质量(《Neural tts voice conversion》,《High quality, lightweight and adaptable TTS using LPCNet》)。基于基本频率的浊音/浊音决定是增强模型歌唱能力的常见方法(《Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens》,《Adversarially trained end-to-end korean singing voice synthesis system》),或对其他说话人(《Neural tts voice conversion》)的适应性。
       
       在本文中,我们提出了FastPitch,这是一个基于FastSpeech的前馈模型,它改进了FastSpeech,并通过对每个输入符号估计的基频(我们简单地称之为基音轮廓)的条件来匹配最先进的自回归TTS模型。我们表明,这种俯仰轮廓的显式建模解决了前馈Transformer的质量缺陷。这些缺陷很可能是由于单在文本输入中缺乏足够的语言信息,将相同音标单位的不同发音折叠而产生的。通过对基本频率的制约,我们为模型提供了更多的语言信息,并防止了这种崩溃。此外,对基频的调节提高了收敛性,并消除了FastSpeech中所使用的梅尔谱图目标的知识蒸馏的需要。
       
       由于该模型学会了预测音调,因此在合成过程中获得了新的实际应用,如改变基频、增加重点、增加表现力以及对音调轮廓进行交互式编辑等。用FastPitch不断偏移F0值,可以产生听起来自然的低音和高音变化,从而保留了人的感知身份,并优于普通的音高转换算法。我们的结论是,该模型是表达和学习模仿声带的行动,这发生在自愿调音的声音。
       
       结合WaveGlow(《Waveglow: A flow-based generative network for speech synthesis》), FastPitch能够使用PyTorch库函数,而不借助于内核级优化(《Deep voice 3: Scaling text-to-speech with convolutional sequence learning》),以超过30倍的速度合成梅尔光谱图。在Mean Opinion Score评估中,FastPitch得分高于我们对Tacotron2(《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》)的实施。
       
       我们想要注意的是,在我们的源代码和这篇描述FastPitch的文章之间发布了FastSpeech(《Fastspeech 2: Fast and high-quality end-to-end text to speech》)中同时开发的音高预测的想法。
图1
       

  2 模型描述

       FastPitch的架构如图1所示。它基于FastSpeech,主要由两个FFT栈(《BERT: Pre-training of deep bidirectional transformers for language understanding》)组成。第一个作用于输入标记的解析,第二个作用于输出帧的解析。设 x = ( x 1 , . . . , x t ) \mathbf{x}=(x_1,...,x_t) x=(x1,...,xt)为输入词汇单位序列, y = ( y 1 , . . . , y T ) \mathbf{y}=(y_1,...,y_T) y=(y1,...,yT)为目标梅尔尺度谱图帧序列。第一个FFT堆栈产生隐藏表示:
h = F F T r a n s f o r m e r ( x ) (1) \mathbf{h}=FFTransformer(x) \tag{1} h=FFTransformer(x)(1)       利用隐藏表示 h \mathbf{h} h,用一维CNN预测每个字符的持续时间和平均音高
d ^ = D u r a t i o n P r e d i c t i o n ( h ) p ^ = P i t c h P r e d i c t o r ( h ) (2) \hat{d}=DurationPrediction(\mathbf{h}) \\ \hat{p}=PitchPredictor(\mathbf{h}) \tag{2} d^=DurationPrediction(h)p^=PitchPredictor(h)(2)       且 d ∈ N t \mathbf{d} \in \mathbb{N}^t dNt p ∈ R t \mathbf{p} \in \mathbb{R}^t pRt接下来,将音调投影到匹配隐藏表示的维数 h ∈ R t × d \mathbf{h} \in \mathbb{R}^{t \times d} hRt×d并添加到 h \mathbf{h} h中。得到的和 g \mathbf{g} g被离散地上采样并传递给输出FFT,输出FFT产生输出的梅尔谱图序列:
g = h + P i t c h E m b e d d i n g ( p ) y ^ = F F T r a n s f o r m e r ( [ g 1 , , . . . , g 1 ⏟ d 1 , g 2 , , . . . , g 2 ⏟ d 2 , . . . , g t , , . . . , g t ⏟ d t ] ) (3) \mathbf{g}=\mathbf{h}+PitchEmbedding(\mathbf{p}) \\ \hat{y}=FFTransformer([\underbrace{g_1,,...,g_1}_{d_1},\underbrace{g_2,,...,g_2}_{d_2},...,\underbrace{g_t,,...,g_t}_{d_t}]) \tag{3} g=

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值