印尼语浅层词干提取器助力文本阅读支持系统
1. 引言
阅读理解在语言学习中是一项极为重要的技能。如今,全球大部分信息都以文本形式传播,互联网的普及让人们接触多种语言的机会增多。若有人对印尼文化感兴趣,通过访问印尼网站能获取大量相关信息,这也促使人们对语言学习的需求和动力不断增加。
为了支持印尼语文本的阅读与理解,我们正在构建一个系统。该系统会在窗口中显示单词的字典信息,帮助用户理解文本中的难词。在这个系统里,将文本中的每个单词自动与字典中的正确词条关联起来至关重要。
印尼语的许多单词是由词根与词缀及其他组合形式构成的,而典型的印尼语词典通常只收录词根作为词条。所以,要了解派生词的含义,就必须知道其词根。如同人类认知一样,自动化系统也需要一个词干提取程序来将文本中的每个单词与字典中的词条关联起来。尽管针对日语和英语等语言已经开发了许多词干提取程序和形态分析器,但关于印尼语词干提取的研究却相对较少。
在本次研究中,我们自行开发了一个印尼语词干提取程序。由于该程序仅用于文本阅读系统,所以并不需要做到完美。接下来,我们将详细介绍这个浅层词干提取器,并展示初步评估的结果,同时还会阐述使用该词干提取程序的文本阅读支持系统的设计。本次研究使用了 CICC 印尼语基础词典作为印尼语的参考词典。
2. 浅层词干提取算法
2.1 印尼语单词的构成
印尼语单词由词根和派生词组成。派生词是通过将词根与一个或多个词缀及其他组合形式相结合而形成的,数量众多。词根、词缀和其他形式之间的关系可以定义为:(词缀|其他形式) 词根 + (词缀|其他形式) 。这里,“|” 相当于逻辑符号 “OR”,“*” 表
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



