11、自然语言索引词的选择与处理

自然语言索引词处理关键技术

自然语言索引词的选择与处理

1. n - 元语法方法与词干提取

n - 元语法方法基于共享的 n - 元语法数量合并术语。n - 元语法是连续 n 个字母的序列,例如二元语法是连续的两个字母对。Adamson 和 Boreham(1974)计算单词对中唯一匹配的二元语法数量(使用 Dice 系数计算),而 Xu 和 Croft(1998)使用三元语法。通过共享的 n - 元语法数量紧密相关的术语会被聚类成相关词组。不过,这种方法无法区分屈折词缀和派生词缀。

在英语中,已经开发了许多词干提取器,最常见的两种是 Lovins 词干提取器(Lovins,1968)和 Porter 词干提取器(Porter,1980)。Kraaij 和 Pohlmann(1996)使用 Porter 算法为荷兰语开发了一个词干提取器,并利用荷兰语单词的计算机可读词典开发了一个额外的屈折和派生词干提取器。荷兰语中的名词复合词通常是通过将两个或多个单词连接成一个正字法单词形成的,因此荷兰语的词干提取器会扩展一个复合词分析器(分词器),该工具通过应用单词组合规则和词典将复合词拆分为其组成部分(词干)。

自动词干提取可能会导致过度词干提取和提取不足的问题。前者是指去除的词素过多,导致不相关的术语合并为相同的词干;后者则是指去除的词素过少,使得相关术语无法合并。词干提取在语言形态丰富(如匈牙利语或希伯来语)或待索引文本较短时很有用。去除屈折词素通常对单词的含义影响不大,但去除派生词素可能会改变单词的含义。一般认为,词干提取对检索效果要么有积极影响,要么没有影响,拆分荷兰语复合名词已被证明可以有效提高检索性能。

2. 短语的选择

短语通常比单个单词承载更多的语义信息,尤其

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值