恰蒂斯加尔语语音技术:端到端TTS模型与ASR语料库建设
1. 语音技术的重要性与挑战
语音技术让人们能通过语音与电子设备交互,获取信息。这一技术的进步不受教育、地域、经济、年龄、性别和健康状况的限制,能惠及广大人群。然而,印度许多语言的数据匮乏,尤其是低资源语言,同时语言存在多种方言,在词汇、发音和语法上存在差异,这使得语言特征难以标准化。
印度大部分人口居住在农村,依赖农业为生。发展印度语言的语音技术,能帮助文盲群体使用数字服务。但目前印度语言的语音识别研究不如英语深入,且现有的数据收集项目大多只关注标准方言,无法满足农村和未受教育人群的需求。
2. 恰蒂斯加尔语背景
恰蒂斯加尔邦是印度第九大邦,约有3000万人口,恰蒂斯加尔语和印地语是官方语言,恰蒂斯加尔语在33个地区更为流行。除该邦外,周边的中央邦、奥里萨邦和贾坎德邦也有使用者。根据2011年的语言调查,约1620万人将恰蒂斯加尔语作为母语。该邦约80%的人口居住在农村,主要从事农业和相关小产业。此前虽有引入语音应用的尝试,但因数据不足大多仅为试点或特定应用。
3. 端到端恰蒂斯加尔语TTS模型
- 模型表现 :对男性和女性TTS模型进行了平均意见得分(MOS)评估,结果如下表所示:
| TTS模型 | 真实样本MOS | 生成样本MOS |
| — | — | — |
| 男性TTS | 4.73(0.62) | 4.46(0.61) |
| 女性TTS | 4.77(0.52) | 4.38(0.67) |
即使仅使用10小时的数
超级会员免费看
订阅专栏 解锁全文
1262

被折叠的 条评论
为什么被折叠?



