基于数据增强的印地语富有表现力的文本转语音合成
1. 引言
在文本转语音(TTS)领域,实现富有表现力的语音合成一直是研究的热点。我们提出的技术可应用于JETS和VITS等框架,但VITS在我们的印地语语音语料库训练中未展现出比FastSpeech2更好的效果,且无法分离语音中的韵律信息,因此未纳入评估。FastSpeech2模型能从文本转录中预测音高和能量信息,可捕捉广泛的语音变化和细微差别,是一个强大的基线系统。我们提出两种方法,利用多领域文本进行数据增强,构建富有表现力的TTS系统。
2. 相关工作
随着对富有表现力的语音合成研究兴趣的增长,相关研究不断涌现。在对话语音合成方面,有多种方法,如:
- 利用自回归(AR)模型生成大量合成话语,以提高非AR TTS模型的质量。
- 使用从训练的全局风格标记(GST)计算的嵌入来构建具有良好韵律变化的多风格TTS。
- 研究数据混合策略,通过添加播客中的真实对话数据,基于有声读物的独白数据改善目标语音的对话韵律。
- 在现有录音基础上使用所需说话风格的合成数据,并对目标说话者的少量富有表现力的样本进行微调,以提高自然度和风格不足。
- 通过在数据库中添加特定领域的语音来提高TTS系统在特定领域的自然度。
- 提出集成方法,结合多个韵律预测器以实现更准确、自然的语音。
同时,也有探索使用混合范式进行TTS的工作,我们的工作重点在于结合经典参数和神经语音合成方法,实现合成语音的表现力和可懂度。
3. 提出的方法
我们研究了使用多领域文本的数据增强方法,提出了两个TTS系统:FS2增强(S1)和HTS增强TTS
超级会员免费看
订阅专栏 解锁全文
1156

被折叠的 条评论
为什么被折叠?



