改进SANSARN搜索引擎:查询扩展技术的应用与效果评估
1. 引言
随着互联网的发展,信息检索的需求不断增加,搜索引擎在帮助用户查找和获取信息方面扮演着至关重要的角色。为了提高搜索引擎的性能,特别是在跨语言信息检索(CLIR)方面,查询扩展技术被广泛应用。本文将详细介绍如何通过查询扩展技术增强SANSARN搜索引擎的功能,特别是针对英语和泰语的跨语言信息检索。此外,还将探讨该技术在其他智能系统(如辅导系统)中的应用潜力。
2. 查询扩展技术
查询扩展是指在用户提交的查询基础上,通过添加同义词、相关词等扩展查询词,以提高检索结果的覆盖率和准确性。查询扩展技术可以分为三类:手动、交互式和自动。手动查询扩展由用户自己修改查询,交互式查询扩展涉及用户与系统的互动,而自动查询扩展则在没有用户干预的情况下修改查询。
在本研究中,我们开发了一种基于词典的自动查询扩展系统。该系统通过添加同义词和相关词来扩展查询,从而提高信息检索系统的有效性。具体来说,我们使用了LEXiTRON电子词典和SANSARN双语搜索引擎来进行扩展。
2.1 操作符规范
操作符规范允许用户逻辑上关联多个概念以定义所需的信息。我们的系统支持使用布尔运算符 AND
、 OR
和 NOT
组合的查询。例如,查询“哺乳动物 AND 两足动物 NOT 人类”将选择所有关于哺乳动物或两足动物的项目,但不包括人类。
2.2 查询扩展
查询扩展组件采用基于词典的技术,使用词性和语义关系。我们使用LEXiTRON进行扩展过程。当用户提交查