文本转语音合成技术的全面解析
1. 引言
文本转语音(TTS)旨在将文本转化为清晰、自然且富有表现力的语音。从信息理论角度看,这是一个从窄带宽到宽带宽的信息转换过程;从数学角度而言,这是一个解不唯一的不适定问题。在过去40年里,实现语音的清晰性和自然性一直是TTS合成研究的核心目标,近年来,语音的表现力也成为了重要的研究方向。同时,还需要考虑工程成本,包括计算成本、内存成本以及设计新合成语音或新语言的成本。
2. 清晰语音
语音的信息密度极高,即使仅考虑其基本语音内容,信息传输速率也接近每秒50比特。然而,语音对错误的容忍度较低,随机改变一个音素往往会导致语义的改变或使语音难以理解。
为确保每秒50比特的信息安全传递,有人提出录制语言中的所有单词并按顺序播放的方法,但这种方法产生的语音通常只是部分可理解,且非常不自然。这是因为单词会按照录制时的方式播放,且单词之间缺乏自然的过渡。实际上,人类说话时会产生连续的语音,这是由于多个肌肉的协同和连续动作,这种现象被称为协同发音。因此,要生成清晰自然的合成语音,就需要能够产生连续、协同发音的语音。
3. 自然语音
生成可理解的语音相对容易,但要实现自然的语音则是一项巨大的挑战。人类对语音的自然度非常敏感,尤其是音高和音素持续时间。轻微的音高曲线变化可能会让听众将语音归类为“机器人语音”,这与人类对机器人和化身的“恐怖谷效应”有关。
4. 富有表现力的语音
随着TTS系统生成的(中性)语音在清晰度和自然度方面的不断提高,研究人员开始认识到情感内容是下一个关键目标。语音速率、平均音高、音高范围、强度、语音质量和发音程度等变量的修改可用于产生与
超级会员免费看
订阅专栏 解锁全文
3323

被折叠的 条评论
为什么被折叠?



