语音合成、立体声编码与共振峰处理技术解析
1. 语音合成技术
语音合成技术旨在让机器生成自然流畅的语音。目前存在两种提升语音自然度的方法。
- 方法一 :自动添加语音信息,但在可预见的未来,该任务可能仍需人工干预,所以需要语言标记信息的系统更适合小范围受限词汇系统。
- 方法二 :机器在没有先验重音和语调模式知识的情况下“读取”句子,从文本中提取相关信息并融入朗读。这类似于人类朗读段落时,要扫描文本、决定重读哪些单词、何时加速、提高音量、停顿等。此任务属于自然语言处理(NLP)研究范畴。
通用拼接式语音合成器的工作流程如下:
graph TD;
A[输入文本] --> B[匹配存储的语音库];
B --> C{是否有例外};
C -- 是 --> D[使用例外词典];
C -- 否 --> E[通过音素化规则生成音素序列];
D --> F[重建音素串];
E --> F;
F --> G[NLP系统检测发音变化];
G --> H[NLP系统添加重音等信息];
H --> I[输出合成语音];
2. Festival语音合成系统
Festival是爱丁堡大学语音技术研究中心开发的语音合成系统,是目前研究中最常用的合成系统之一。它具有以下特点:
- 开源免费 :研究人员和开发者可按需下载、测
超级会员免费看
订阅专栏 解锁全文
368

被折叠的 条评论
为什么被折叠?



