浅谈语音信号处理系列之四语音合成

语音合成技术详解：从TTS到合成策略

最新推荐文章于 2025-08-10 11:54:08 发布

原创

最新推荐文章于 2025-08-10 11:54:08 发布 · 3.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#存储 #算法 #tts #语言 #任务

本文介绍了语音合成的基本原理，包括‘分析-存储-合成’过程，探讨了波形合成和参数合成两种方法。重点讨论了TTS系统的关键步骤，如语种与词汇量选择、基元选取、合成规则建立、两步走合成过程，以及汉语合成的特殊优势和当前技术现状，特别是科大讯飞在该领域的领先地位。

语音合成

一语音合成基本原理
语音合成是一个“分析-存储-合成”的过程。一般要选择合适的基元(语音合成系统所处理的最小的语音学基本单元)，将基元用一定的参数编码方式或波形方式进行存储，形成一个语音库。在合成时，根据待合成的语音信息，从语音库中取出相应的基元进行拼接，并将其还原成语音信号。

二语音合成的主要分类
根据基元的选择方式以及其存储形式的不同，可以将合成方式笼统地分成波形合成方法和参数合成方法。
波形合成方法相对于参数合成方法更简单，语音质量和清晰度更好一些，但是所需要的空间存储比较大，因此对合成的词汇量也就有了相应的限制。

三总结
现在语音合成的研究与应用主要集中在从文本转换成语音的合成，也就是TTS（Text-To-Speech）系统。我虽然没有直接参与过语音合成的项目，但是team里却有TTS的项目，耳濡目染也了解了一些基本的知识。从不专业的角度来看，做语音合成的一些重要步骤（当然你也可以直接向第三方购买）：

1、确定语种、词汇量大小；
汉语合成还是英语合成显然对应的方法是不同的，无论哪种语言词汇量都非常大，我们都不可能做到无限词汇量的合成，通常也就是常用词的合成而已。通常是需要购买语音库或者自己录制高品质的语音库。

2、合成基元的选择
这是一个需要权衡的问题，语音学中从小到大的顺序有音素、双音素、半音节、音节、词、短语和句子都可能作为合成系统的基元，通常基元越小，需要的存储空间越小，应用组合的规则越多，合成质量越差。有时候也可以通过增加一些大的基元来处理特殊情况，例如某些单个音素的合成会导致过渡音的质量严重下降，因此增加一些双音素或半音节可以更好的保证语音片的连续性。

3、合成规则的建立
这个是非常重要的环节，直接影响了语音合成的质量。这些规则主要依据语言学的特点，需要了解单词的发音以及什么时候是轻音、重音，音调的变化，两个单词之间的连读、重音和长音、多音节协同发音等等。很多