- A postfilter to modify the modulation spectrum in HMM-based speech synthesis
本文提出了一种后滤波方法来补偿调制频谱。在基于hmm的语音合成中,过度平滑是导致语音质量下降的主要原因,为了缓解过度平滑的影响,有必要考虑能够捕获过度平滑的特征。全局方差(Global Variance, GV)就是这种特征的一个很好的例子,并且证明了考虑GV的参数生成算法的有效性。然而,天然语音和合成语音的质量差距仍然很大。本文将语音参数轨迹的调制谱作为一种新的特征来有效地捕捉过平滑效应,并提出了一种基于调制谱Modulation Spectrum MS的后滤波算法。对生成的语音参数序列进行过滤,以确保其MS具有类似于自然语音的模式。实验结果表明,与考虑全局方差Global Variance GV的传统方法相比,将该方法应用于spectral和F0分量时,质量得到了改善。
文本-语音转换(TTS)是一种可以将任何文本转换成语音的技术,在许多语音应用中起着重要的作用。能够合成自然语音的合成技术的需求正在迅速增长。基于人工智能的语音合成[1]的语音控制能力[2,3,4]是目前语音合成领域研究的热点之一。另一方面,与自然语音相比,合成语音的质量明显下降,合成语音对[5]的抑制作用明显。这是因为传统的生成框架会生成过于平滑的参数轨迹。全局方差(GV)[6]是捕获这种过度平滑效果的著名特性之一。尽管基于遗传算法的遗传矢量v计算简单,但考虑遗传算法的生成算法能有效地缓解过平滑效应。然而,天然语音和合成语音之间的质量差距仍然很大。在本文中,我们引入参数轨迹的调制谱(MS)作为一种新的特征来有效地捕捉过平滑效应,并提出一种后滤波来补偿MS。在其他的研究领域,例如语音感知[7]的谱图,以及基于hmm的语音识别[8]的声学特性,都注意到了MS在捕获语音方面的有效性。由于所生成的序列是全局平滑的,因此即使使用考虑全局矢量的遗传算法,合成语音的质谱也会比自然语音的质谱退化。因此,所提出的方法对生成的参数序列进行了滤波处理。后滤波器是利用自然语音和合成语音组成的训练数据进行训练的。实验结果表明,将该方法应用于spectral和F0 components时,与考虑GV的常规方法相比,质量有所提高。
Maximizing HMM Likelihood
在基于隐马尔可夫模型的语音合成中,使用自然语音参数训练上下文相关的隐马尔可夫模型。在合成过程中,构造与将要合成的输入文本相对应的句子HMMs,在静态和动态特征关系的约束下,生成语音参数轨迹,使HMM似然最大化,具体如下:
c是一个T帧的语音参数向量序列,
ct是一个在T帧的D维参数向量, d是一个维度指数
W是计算加权矩阵的动态特性[9],λ是一个HMM参数集,分别。由式(1)产生的参数序列有过平滑的趋势,合成语音与自然语音相比有消音现象。
Maximizing HMM and GV Likelihood
GV 定义为参数轨迹的二阶矩,计算为:
语音参数轨迹由最大化HMM和GV似然来生成
是GV的参数集,w是GV似然的一个权重,GV的统计是从自然语音参数中训练出来的。使用式(1)生成的GV通常小于自然语音参数生成的GV。用该方法对语音信号进行补偿,提高了语音质量,但效果不明显。
MODULATION SPECTRUM ANALYSIS
传统上将modulation spectrum定义为通过参数的傅里叶变换计算得到的值,本文将modulation spectrum定义为对数尺度的功率谱。当然,这个特征可以表示参数序列的时间波动。
参数序列的MS计算为:
是参数序列的第d维第m个MS。M是一个modulation 频率指数。
M是DFT长度的一半。本文从一个零填充的参数序列出发,将其序列长度设为2M,计算出MS。
在这里,我们分析了自然语音和合成语音的MS。使用式(1)“HMM”和式(4)HMM+GV生成的第9个melcepstral系数序列的均值如图1所示。另外,自然语音参数序列(“自然语音”)的MS值如图所示,以供比较。结果表明,与“自然语言”相比,“HMM”的“MS”明显退化。这是因为在自然语音参数序列中观察到的时间波动在hmm框架中丢失了。我们也可以发现“HMM+GV”的MS更接近于自然语音,但“HMM+GV”的MS与“natural speech”的MS仍有很大差距。
从这些结果中,我们可以期待通过直接计算MS中的差异来进一步提高质量
POSTFILTER BASED ON MODULATION SPECT
在本节中,我们提出一个后置滤波器来补偿产生的参数序列的MS。提出的方法原理图如下图所示。利用训练数据中的自然参数序列和生成的参数序列训练后滤波器的参数
训练过程中为了避免自然语音参数序列和生成语音参数序列的持续时间差的影响,在自然语音参数序列下生成参数序列。
合成阶段:
应用以下滤波器来生成的语音参数序列c
其中k为0 ~ 1之间的后滤波强调系数。如果k=1, MS将被修改为接近自然语音参数序列的MS。另一方面,如果k=0,经过过滤的序列将与未过滤的序列相同。滤波后的参数序列是根据滤波前计算得到的参数序列的MS和频率相位特性计算得到的。
Application to F0 Component
虽然提出的后滤波方法可以直接应用于光谱分量,但由于观测到的F0轮廓线不是连续序列,因此需要对F0分量进行额外的处理。为了解决这一问题,我们使用连续F0建模,它可以估计出F0在非浊音帧下的值。用样条插值法估计了无浊音帧的F0值。为了避免连续F0轮廓的MS波动,我们使用低通滤波器(LPF)去除微韵律。我们认为微韵律对语音质量的影响很小。此外,在估计连续F0轮廓线之前,我们从原始F0值中减去话语级F0,以避免补零过程中的不连续过渡。由于基于样条的外推降低了f0估计的质量,因此我们从non-slience框架1计算MS。
在合成中,在应用该滤波器之前,提取生成的F0轮廓的语音级均值和清音/浊音域。滤波后,首先将滤波后的连续F0轮廓按谱分量计算。然后对滤波后的连续F0轮廓加上均值,恢复清音/浊音区域,计算滤波后的F0轮廓
Relationship to GV-based Postfilter
一种后滤波进程来保证生成的参数序列的GV。
所提出的方法可以在每个调制频谱中分别转换MSs
本文提出了一种后滤波器来补偿在基于模态调制的语音合成中所产生的参数轨迹的调制谱。实验结果表明,该方法对光谱和F0分量均有较好的质量改善。在今后的工作中,我们将把调制谱与参数生成算法结合起来。
2.其他
全局方差解决过度平滑的效应
Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory
本文提出了一种新的语音频谱转换方法。采用声源与目标特征联合概率密度的高斯混合模型(GMM)进行声源间的谱转换。传统的方法是基于最小均方误差逐帧转换光谱参数。该方法虽然有一定的效果,但语音质量的下降主要是由以下几个问题引起的:1)基于帧的转换过程并不总能引起适当的谱运动;2)转换后的谱经过统计建模处理过于平滑。为了解决这些问题,我们提出了一种基于谱参数轨迹最大似然估计的转换方法。不仅采用静态特征统计,而且采用动态特征统计来实现合适的转换谱序列。同时,考虑了转换谱的全局方差特征,有效地缓解了过渡平滑效应。实验结果表明,该方法能显著提高语音质量和说话人个性化的转换精度