低资源约束下的代码混合文本转语音合成及恰蒂斯加尔语端到端TTS模型
在当今数字化时代,语音技术取得了显著进展,文本转语音(TTS)系统的实现有了极大改善。然而,对于印度的一些低资源语言来说,由于缺乏技术支持和资源多样性,TTS系统的发展受到了阻碍。本文将探讨低资源约束下的代码混合文本转语音合成,以及恰蒂斯加尔语这一低资源印度语言的端到端TTS模型的开发。
低资源约束下的代码混合文本转语音合成
在代码混合的电子商务用例中,为了构建高质量的TTS系统,采用了多种方法。
- 转写方法 :提出了一种基于转写的方法,将双语数据转换为通用脚本进行训练。这种双语训练在代码混合测试集上也表现良好。
- 模型比较 :比较了使用两种不同预训练方法的不同单说话人和多说话人TTS模型。结果表明,从混合预训练设置进行迁移学习具有优势。
- 多说话人模型评估 :多说话人模型在参考音频(音频嵌入)和说话人选择(平均嵌入)配置中进行了进一步评估。
- 最佳模型 :具有混合数据预训练的单说话人模型表现最佳,在代码混合用例中优于谷歌TTS。
- 低资源适应性 :经过混合数据预训练且仅进行解码器微调的模型,只需3小时的数据就能适应新的语音,这显示了预训练模型在低资源环境中的重要性。
恰蒂斯加尔语端到端TTS模型
恰蒂斯加尔语是一种拥有1800万母语使用者的低资源印度语言。SYSPIN倡议旨在为包括恰蒂斯加尔语在内的九种印度语言开发TTS语料库和AI模型。 <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



