提升文本转语音合成效果的预训练技术
1. 研究背景与动机
随着深度学习的发展,基于神经网络(NN)的文本转语音(TTS)技术已成为主流。它相比之前的拼接合成和统计参数合成系统,减少了人工预处理和特征开发的需求,能生成高质量、高自然度和可懂度的语音。不过,基于NN的TTS训练通常需要大量数据,为缓解这一数据需求,提出了一种半监督预训练技术框架。
该框架通过基于自动语音识别(ASR)的数据增强方法扩展TTS模型的训练材料,具体步骤为:
1. 在ASR数据集上构建逐帧音素分类网络。
2. 从大规模语音语料库中提取半监督的<语言特征, 音频>配对数据。
3. 使用这些配对数据对基于NN的TTS声学模型进行预训练。
4. 用少量可用的配对数据对模型进行微调。
与以往类似的半监督预训练工作相比,该方法有以下不同:
- 预训练TTS模型的半监督<语言特征, 音频>配对数据来自基于ASR数据集构建的逐帧音素分类网络,可对整个TTS声学模型进行预训练,而以往工作是分别对编码器和解码器进行预训练。
- 采用AdaSpeech作为TTS系统的声学模型,它通过插入说话人嵌入作为条件信息,涉及自适应定制语音技术。
- 研究并分析了借助资源丰富语言的半监督预训练来构建低资源语言TTS系统的有效性。
2. TTS模型架构
基于NN的TTS系统通常由三个基本组件组成:文本分析模块、声学模型(TTS - AM)和语音编码器。
2.1 文本分析模块
在TTS系统中,文本分析模块对合成语音的可懂度和自然度有重要影响。以中文TTS系统为例,
超级会员免费看
订阅专栏 解锁全文
468

被折叠的 条评论
为什么被折叠?



