语音合成
一 语音合成基本原理
语音合成是一个“分析-存储-合成”的过程。一般要选择合适的基元(语音合成系统所处理的最小的语音学基本单元),将基元用一定的参数编码方式或波形方式进行存储,形成一个语音库。在合成时,根据待合成的语音信息,从语音库中取出相应的基元进行拼接,并将其还原成语音信号。
二 语音合成的主要分类
根据基元的选择方式以及其存储形式的不同,可以将合成方式笼统地分成波形合成方法和参数合成方法。
波形合成方法相对于参数合成方法更简单,语音质量和清晰度更好一些,但是所需要的空间存储比较大,因此对合成的词汇量也就有了相应的限制。
三 总结
现在语音合成的研究与应用主要集中在从文本转换成语音的合成,也就是TTS(Text-To-Speech)系统。我虽然没有直接参与过语音合成的项目,但是team里却有TTS的项目,耳濡目染也了解了一些基本的知识。从不专业的角度来看,做语音合成的一些重要步骤(当然你也可以直接向第三方购买):
1、确定语种、词汇量大小;
汉语合成还是英语合成显然对应的方法是不同的,无论哪种语言词汇量都非常大,我们都不可能做到无限词汇量的合成,通常也就是常用词的合成而已。通常是需要购买语音库或者自己录制高品质的语音库。
2、合成基元的选择
这是一个需要权衡的问题,语音学中从小到大的顺序有音素、双音素、半音节、音节、词、短语和句子都可能作为合成系统的基元,通常基元越小,需要的存储空间越小,应用组合的规则越多,合成质量越差。有时候也可以通过增加一些大的基元来处理特殊情况,例如某些单个音素的合成会导致过渡音的质量严重下降,因此增加一些双音素或半音节可以更好的保证语音片的连续性。
3、合成规则的建立
这个是非常重要的环节,直接影响了语音合成的质量。这些规则主要依据语言学的特点,需要了解单词的发音以及什么时候是轻音、重音,音调的变化,两个单词之间的连读、重音和长音、多音节协同发音等等。很多