形态复杂语言的变体关键词形式生成
在处理形态复杂的语言时,生成变体关键词是提高信息检索效果的重要手段。下面我们将详细探讨相关的方法、评估以及讨论。
变体关键词生成方法
- FCG方法 :基于语言频率的Frequent Case Generation(FCG)方法,对于拥有大量或中等数量变体词形的语言,它将生成的词形数量限制为最常见的形式,这些形式通过语料库预先确定。该方法在芬兰语、瑞典语、德语和俄语等语言的信息检索中取得了较好的效果,达到了使用词形还原器或词干提取器效果的86 - 95%。
- 生成器
- SWERG和SWERG+ :这是基于简单词尾规则的生成器。SWERG基于一个包含261,087个词元及其六种格的屈折形式的数据库推导规则。它将单数主格与复数形式以及属格、部分格、内格、离格和入格进行比较。SWERG+是其扩展版本,通过内格形式并替换离格词尾“ssa”来生成更多的格,如转变格、临格、夺格、向格、状态格和缺格。规则应用于3052种不同的词元词尾,SWERG和SWERG+的规则总数分别为21,395和47,966条。在生成过程中,采用贪心算法,一个词元可能会有基于不同长度词尾的多个候选形式。例如,对于词元“horisontti”,会搜索“ti”、“tti”、“ntti”等词尾。这种方法虽然能生成全面的形式,但也会产生一些错误形式。不过,这些不符合语法的形式可能会与相关文档匹配,例如在Google上,“horisontti”的错误生成形式的析取查询约有92个匹配结果。
- FCG
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



