自然语言索引词的选择与处理
1. n - 元语法方法与词干提取
n - 元语法方法基于共享的 n - 元语法数量合并术语。n - 元语法是连续 n 个字母的序列,例如二元语法是连续的两个字母对。Adamson 和 Boreham(1974)计算单词对中唯一匹配的二元语法数量(使用 Dice 系数计算),而 Xu 和 Croft(1998)使用三元语法。通过共享的 n - 元语法数量紧密相关的术语会被聚类成相关词组。不过,这种方法无法区分屈折词缀和派生词缀。
在英语中,已经开发了许多词干提取器,最常见的两种是 Lovins 词干提取器(Lovins,1968)和 Porter 词干提取器(Porter,1980)。Kraaij 和 Pohlmann(1996)使用 Porter 算法为荷兰语开发了一个词干提取器,并利用荷兰语单词的计算机可读词典开发了一个额外的屈折和派生词干提取器。荷兰语中的名词复合词通常是通过将两个或多个单词连接成一个正字法单词形成的,因此荷兰语的词干提取器会扩展一个复合词分析器(分词器),该工具通过应用单词组合规则和词典将复合词拆分为其组成部分(词干)。
自动词干提取可能会导致过度词干提取和提取不足的问题。前者是指去除的词素过多,导致不相关的术语合并为相同的词干;后者则是指去除的词素过少,使得相关术语无法合并。词干提取在语言形态丰富(如匈牙利语或希伯来语)或待索引文本较短时很有用。去除屈折词素通常对单词的含义影响不大,但去除派生词素可能会改变单词的含义。一般认为,词干提取对检索效果要么有积极影响,要么没有影响,拆分荷兰语复合名词已被证明可以有效提高检索性能。
2. 短语的选择
短语通常比单个单词承载更多的语义信息,尤其
自然语言索引词处理关键技术
超级会员免费看
订阅专栏 解锁全文
2154

被折叠的 条评论
为什么被折叠?



