印尼语浅层词干提取器助力文本阅读支持系统
1. 引言
阅读理解是语言学习中至关重要的技能之一。随着互联网的普及,人们接触各种语言的机会增多,对语言学习的需求和动力也随之增加。为了支持印尼语文本的阅读和理解,我们构建了一个基于网络的系统,该系统会在窗口中显示单词的字典信息,帮助用户理解文本中的难词。
在这个系统中,将文本中的每个单词自动与字典中的正确词条关联起来非常重要。印尼语的许多单词是由词根与词缀及其他组合形式结合而成,而典型的印尼语词典仅以词根作为词条。因此,为了将文本中的单词与字典词条关联起来,需要一个词干提取程序来提取词根。虽然已经有许多针对日语和英语等语言的词干提取程序和形态分析器,但关于印尼语词干提取的研究相对较少。
在本研究中,我们开发了一个印尼语词干提取程序。由于其功能仅用于文本阅读系统,所以该词干提取器不需要十分完美。我们将介绍一个浅层词干提取器,并展示初步评估的结果,同时描述使用该词干提取程序的文本阅读支持系统的设计。在本研究中,我们使用 CICC 印尼语基础词典作为印尼语的字典。
2. 浅层词干提取算法
2.1 印尼语单词的构成
印尼语单词由词根和派生词组成。派生词是通过将词根与一个或多个词缀及其他组合形式结合而形成的,数量众多。词根、词缀和其他形式之间的关系可定义为:(词缀 | 其他形式) 词根 + (词缀 | 其他形式) 。其中,“|” 相当于逻辑符号 “OR”,“*” 表示前面字符的 0 次或多次重复。
词干提取的基本步骤如下:
1. 准备词缀和其他组合形式的列表。
2. 从输入单词中移除列表中匹配的字符串。
3.
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



