利用通用文本转语音系统调整有限领域语音合成
1. 引言
有限领域语音合成(LDTS)采用单元选择方法,使用较长的单元(如单词和短语)进行拼接,而非短单元(如双音素)。这种方式减少了合成句子中的拼接次数,降低了语音伪影出现的概率,同时由于待搜索的语音单元候选数量大幅减少,也降低了计算复杂度。然而,拼接较长单元可能会导致“恐怖谷”现象,即对自然环境中不自然伪影的厌恶。
为确保高质量的LDTS,需要精心准备有限领域(LD)文本语料库。该语料库应涵盖给定领域的大部分(理想情况下是全部)常用单词和短语,并包含上下文信息,以便在重叠部分找到最佳拼接点。与通用TTS系统的语料库相比,LD语料库虽然因上下文信息而有所增大,但仍然小得多且成本更低。通用文本语料库则需要在不同的语音和韵律上下文中覆盖双音素,以满足合成未知文本的需求。
1.1 目标
基于LD系统能够生成高质量语音的假设,我们旨在创建这样一个系统,并验证其效果。由于我们只有专门的LD文本语料库,而没有实际的LDTS系统,因此决定使用基于双音素的通用TTS系统ARTIC,并对其进行修改,使其模拟LDTS系统的工作方式。通过比较修改后系统和未修改的通用系统的输出,判断LD合成是否能达到更高的自然度,从而确定LDTS系统是否值得构建和使用。
1.2 拼接方法分析
在通用语音合成器和LDTS模拟器中,都需要为给定的输入文本搜索语音单元候选的最佳序列。通常,文本被分解为语音单元后,存储在语音单元数据库中的候选单元会被用于构建一个图,该图通过目标成本(节点)和拼接成本(边)进行评估:
- 目标成本 :$C_t(t_i, u_i)$ 量
超级会员免费看
订阅专栏 解锁全文
2629

被折叠的 条评论
为什么被折叠?



