19、低资源约束下的代码混合文本转语音合成及恰蒂斯加尔语端到端TTS模型

oo7890

于 2025-08-06 16:39:12 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：低资源语言 TTS 文本转语音

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702313

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

低资源约束下的代码混合文本转语音合成及恰蒂斯加尔语端到端TTS模型

在当今数字化时代，语音技术取得了显著进展，文本转语音（TTS）系统的实现有了极大改善。然而，对于印度的一些低资源语言来说，由于缺乏技术支持和资源多样性，TTS系统的发展受到了阻碍。本文将探讨低资源约束下的代码混合文本转语音合成，以及恰蒂斯加尔语这一低资源印度语言的端到端TTS模型的开发。

低资源约束下的代码混合文本转语音合成

在代码混合的电子商务用例中，为了构建高质量的TTS系统，采用了多种方法。
- 转写方法 ：提出了一种基于转写的方法，将双语数据转换为通用脚本进行训练。这种双语训练在代码混合测试集上也表现良好。
- 模型比较 ：比较了使用两种不同预训练方法的不同单说话人和多说话人TTS模型。结果表明，从混合预训练设置进行迁移学习具有优势。
- 多说话人模型评估 ：多说话人模型在参考音频（音频嵌入）和说话人选择（平均嵌入）配置中进行了进一步评估。
- 最佳模型 ：具有混合数据预训练的单说话人模型表现最佳，在代码混合用例中优于谷歌TTS。
- 低资源适应性 ：经过混合数据预训练且仅进行解码器微调的模型，只需3小时的数据就能适应新的语音，这显示了预训练模型在低资源环境中的重要性。

恰蒂斯加尔语端到端TTS模型

恰蒂斯加尔语是一种拥有1800万母语使用者的低资源印度语言。SYSPIN倡议旨在为包括恰蒂斯加尔语在内的九种印度语言开发TTS语料库和AI模型。 <

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。