基于多目标遗传算法自动估计共振峰语音合成器输入参数
1. 引言
在语音合成领域,模仿人类声音是一个具有挑战性的任务。共振峰合成器,如 Klatt 合成器,因其参数与物理参数密切相关且具有较高的可解释性,在语音研究中占据重要地位。然而,自动估计 Klatt 合成器的输入参数以实现语音模仿并非易事,因为需要组合的参数数量众多,且每个参数都有一定的可接受值区间,必须仔细调整才能产生特定的语音。
为了解决这个问题,我们采用了多目标遗传算法(MOGA),特别是非支配排序遗传算法 II(NSGA - II),并开发了 GASpeech 框架。该框架旨在自动估计 Klatt 合成器的参数,以生成与自然语音尽可能接近的语音。
2. 语音合成概述
语音合成是指利用自动生成语音信号来人工产生人类语音的过程。评估合成语音质量时,自然度和可懂度是重要的考虑因素。尽管语音合成研究已经进行了数十年并取得了一定进展,但在语音自然度方面仍存在差距,特别是在考虑语调、情感和内容表达的适应性方面。
语音合成的发展历程悠久:
- 1779 年,俄罗斯教授 Christian Kratzenstein 制作了类似于声道的声学谐振器,能够产生元音。
- 1791 年,Wolfgang von Kempelen 创造了一种机器,通过模拟肺部的压力室、类似声带的振动轴和代表声道的皮革管,能够产生元音和辅音。
- 1800 年,Charles Wheatstones 改进了 Kempelen 机器,使其能够产生更多的元音和大部分辅音,包括鼻音。
- 1922 年,Stewart 构建了一个合成器,由模仿肺部功能的源和塑造声道声学谐振器的谐振电路
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



