基于HTK HMM工具包的克丘亚语自动语音识别系统
1. 引言
克丘亚语是美洲使用人数较多的土著语言之一。在秘鲁,13.9%的人口以克丘亚语为第一语言,超22%的人有克丘亚族裔背景。然而,尽管该语言在一些地区是官方语言,但它的可见度较低,且使用人数呈下降趋势。这主要是因为使用者认为克丘亚语不适合现代社会,缺乏经济价值。此外,克丘亚语历史上主要为口头语言,书面使用较少,在数字领域几乎缺失,限制了其应用范围。将克丘亚语引入数字领域,有助于支持各国在本土语言公共服务方面的举措,也是复兴这些语言的关键一步。
本文旨在基于马尔可夫隐模型(HMM)开发一个针对南部克丘亚语的自动语音识别器(ASR)。这种统计方法是处理低资源语言最常用的方法,其目标是为克丘亚语使用者提供口头和书面交流的接口,并为研究领域提供基础构建模块,以开发更复杂的工具,拓宽克丘亚语的日常使用前景。
2. 背景与相关工作
近年来,只有少数拉丁美洲及国外的团队在从事秘鲁本土语言的语言技术研究。比如,安第斯亚马逊语言文学研究所(ILLA)为克丘亚语、艾马拉语和瓜拉尼语编纂了电子词典;库斯科国立圣安东尼奥阿巴德大学的Hinantin团队开发了库斯科克丘亚语的文本转语音系统和适用于LibreOffice的克丘亚语拼写检查插件;Rios为南部克丘亚语开发了高质量的语言技术工具包,包括首个克丘亚语依存句法树库。
SIMINCHIKKUNARAYKU项目由一群积极的研究人员主导,他们认为美洲语言的未来不仅取决于保护工作,还取决于所有公民的多语言能力。该项目开发了收集语音语料的工具HUQARIQ、语料库存储库QILLQA、97小时的南部克丘亚语语音语料库及相应转录文本SIMINCHIK,还有250