奥里亚语形态分析器:构建、评估与挑战
1. 奥里亚语语法基础
奥里亚语具有自然性别,但在与动词等语法范畴的一致性上并不体现。例如,“baagha”(老虎)和“baaghuNi”(母老虎)。在定语位置中,位于名词之前的形容词通常与名词没有一致性,不过在少数情况下,形容词会与名词在性别上保持一致,如“kaLaa baLada”(黑公牛)和“kaaLi gaaii”(黑母牛)。奥里亚语的限定动词会标记人称、数、时态、体和语气,并且与主语名词保持一致,这种一致性通过附着在主要动词末尾的一致标记体现,例如“aame khaa - il - u”(我们吃了)。
2. 相关工作
在自然语言处理的形态分析中,采用了多种方法,如暴力法、根驱动法、词缀剥离法等。一些基于范式方法开发的形态分析器包括印地语形态分析器、马拉地语形态分析器等。此外,也有使用确定性有限状态自动机(FSA)开发奥里亚语形态分析器的工作,还有利用Apertium工具包中的Lttoolbox开发奥里亚语形态分析器的工作。
3. 当前工作
3.1 方法
采用基于范式的方法为奥里亚语创建形态分析器。范式用于表示语言中词汇单位的屈折规则,奥里亚语作为黏着语,范式方法似乎很适合它。
3.2 使用的资源
- 词汇资源 :手动创建了一个包含10,840个根词的字典,使用的资源包括奥里亚语字典“Taruna Sabdakosha”、“A synchronic grammar of Oriya”以及来自中央印度语言研究所(CIIL)的2,720,400个单词的语料库。字典中各类词的数量
超级会员免费看
订阅专栏 解锁全文
4308

被折叠的 条评论
为什么被折叠?



