TTS(Text To Speech)是一个序列到序列的匹配问题。处理TTS的方法一般分为两部分:文本分析和语音合成(speech synthesis)。文本分析可能采用NLP方法。
而在语音合成(speech synthesis)上有两种主要的方法:一种是非参数化的,基于样例的方法,如拼接语音合成;另一种是参数化的、基于模型的方法,如统计参数语音合成。
拼接语音合成:
基于统计规则的大语料库拼接语音合成系统
超大规模音库制作:语料设计;音库录制;精细切分;韵律标注;

优点:音质最佳,录音和合成音质差异小,正常句子的自然度也好
缺点:非常依赖音库的规模大小和制作质量,尺寸大,无法在嵌入式设备中应用,仍然存在拼接不连续性
参数语音合成
对于引得频谱特性参数进行建模,生成参数合成器,来构建文本序列映射到语音的映射关系

优点:尺寸小,语音自然度好
缺点:音质不如拼接合成
本文介绍了TTS(Text To Speech)技术,将其定义为序列到序列的匹配问题。文本分析通常涉及NLP,而语音合成就包含非参数化的样例方法(如拼接合成)和参数化的模型方法(如统计参数合成)。拼接合成音质最佳但依赖大型音库,不适合嵌入式设备;参数合成则尺寸小,但音质稍逊。
6534

被折叠的 条评论
为什么被折叠?



