49、利用通用文本转语音系统调整有限领域语音合成

sprite

于 2025-08-07 12:40:41 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：有限领域语音合成通用文本转语音单元选择

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005215

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用通用文本转语音系统调整有限领域语音合成

1. 引言

有限领域语音合成（LDTS）采用单元选择方法，使用较长的单元（如单词和短语）进行拼接，而非短单元（如双音素）。这种方式减少了合成句子中的拼接次数，降低了语音伪影出现的概率，同时由于待搜索的语音单元候选数量大幅减少，也降低了计算复杂度。然而，拼接较长单元可能会导致“恐怖谷”现象，即对自然环境中不自然伪影的厌恶。

为确保高质量的LDTS，需要精心准备有限领域（LD）文本语料库。该语料库应涵盖给定领域的大部分（理想情况下是全部）常用单词和短语，并包含上下文信息，以便在重叠部分找到最佳拼接点。与通用TTS系统的语料库相比，LD语料库虽然因上下文信息而有所增大，但仍然小得多且成本更低。通用文本语料库则需要在不同的语音和韵律上下文中覆盖双音素，以满足合成未知文本的需求。

1.1 目标

基于LD系统能够生成高质量语音的假设，我们旨在创建这样一个系统，并验证其效果。由于我们只有专门的LD文本语料库，而没有实际的LDTS系统，因此决定使用基于双音素的通用TTS系统ARTIC，并对其进行修改，使其模拟LDTS系统的工作方式。通过比较修改后系统和未修改的通用系统的输出，判断LD合成是否能达到更高的自然度，从而确定LDTS系统是否值得构建和使用。