基于查询扩展的网页检索:并行检索技术解析
1. 预处理阶段
查询预处理在任何信息检索系统中都是非常重要的阶段。此阶段主要执行以下任务:
1. 去除非法字母和无关信息 :每种语言都有其特定的字母集,此步骤需移除不属于该语言字母集(这里指英语字母集)的字母。同时,要去除与文档主题无关的信息,如横幅广告,因为这些信息若被索引,可能会对检索过程的准确性产生负面影响。
2. 停用词去除 :停用词虽有助于构建句子,但在文档检索中价值不大,如“about”“a”“is”“for”“the”“what”等,这些词必须被移除。
3. 归一化(大小写统一) :将所有字母转换为小写。
2. 倒排索引生成阶段
在网页信息检索中,每次都扫描所有网页来查找包含查询词的页面是不现实的。因此,使用一种名为倒排索引的数据结构来加速搜索过程。在此过程中,会构建一个倒排索引表,其中每个词(标记)都与包含该词或其派生词的所有文档列表相关联。
3. 文档检索阶段
该检索模块依赖岛屿遗传算法(IGA)来实现并行性并加速检索过程。它主要由四个岛屿组成,每个岛屿在不同的服务器上独立工作,因此每个岛屿可以使用不同的索引表。为了在相同情况下比较四个岛屿的行为,这里为四个岛屿使用相同的倒排索引。
3.1 遗传搜索阶段
此阶段会激活四个岛屿。四个岛屿在单点交叉算子、精英策略和个体变异方面使用相同的操作,但使用不同的选择方法和适应度函数。
- 选择方法 :
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



