信息检索导论-permuterm index
permuterm index是专用于通配符查询的索引结构的一种方法:
方法:$表示一个词的末尾(正则),即如果ab,则表示成ab$,并进行轮排,形成ab$,$ab,b$a,并指向ab;
在处理单个通配符查询时,如果要查*b,则先添上$,然后旋转,使得*在词的尾端,即b$*,并在搜索树中查找。发现b$a满足要求,则ab满足要求。
在处理多个通配符查询时,如果要查询a*b*,则先添加$即a*b*$,然后旋转为$a*b*,先查询$a*,取得的结果再通过a*b*过滤即可。
缺点:词典会变得很大。
以下代
原创
2021-11-27 19:03:52 ·
759 阅读 ·
0 评论