Lucene 合并倒排表算法之交集

最新推荐文章于 2024-06-13 00:20:15 发布

原创最新推荐文章于 2024-06-13 00:20:15 发布 · 5.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#lucene #算法 #object #数据结构 #搜索引擎 #merge

java 专栏收录该内容

27 篇文章

订阅专栏

本文深入探讨了Lucene如何处理倒排表的交集操作。通过过滤筛选、倒排表排序及删减无用docid等步骤，详细阐述了合并倒排表以生成交集的机制，这对于理解Lucene搜索引擎的内部工作原理至关重要。

可能大家都知道,lucene采用了传统搜索引擎中倒排表的数据结构.在搜索时，假设我们要查询"+(a:test)+(b:test1)"的话,首先要先查询得到a字段中包含 test关键字的倒排表,然后查询得到b字段中包含test1关键字的倒排表,然后对两个倒排表结构进行merge操作：计算两者间的交集就是我们的查询结果.

当然这只是其中一个例子罢了.实际情况中,因为查询条件不同和复杂性,我们可能会遇到更多对倒排表的操作:交集,并集,差集等.本文主要讲述lucene如何对交集进行处理:合并倒排表,生成SumScorer结果.

第一步:过滤筛选:

先对每个倒排表进行检查:每个倒排表都是一个DocIdSetIterator,如果其中一个倒排表中list为空,则说明交集肯定为空,不需要进行接下来的工作:

for (int i = 0; i < scorers.length; i++) { if (scorers[i].nextDoc() == NO_MORE_DOCS) { // If even one of the sub-scorers does not have any documents, this // scorer should not attempt to do any more work. lastDoc = NO_MORE_DOCS; return; } } 时间复杂度为O(N)常量级别

第二步:对倒排表数组进行排序:效果是倒排表数组按照每个倒排表第一个docid进行升级排序:

Arrays.sort(scorers, new Comparator() { // sort the array public int compare(Object o1, Object o2) { return ((Scorer) o1).docID() - ((Scorer) o2).docID(); } });

第三步:删减无用docid:因为是对多个倒排表求交集,所以需要先筛选去掉倒排表中那些比较小的docid:

if (doNext() == NO_MORE_DOCS) { // The scorers did not agree on any document. lastDoc = NO_MORE_DOCS; return; } doNext():该方法做的事情就是:比如倒排表数组中每个倒排表第一个docId分别为1,3,4,5,6,7;因为每个倒排表迭代器都是升序的,所以其实1,3,4,5,6在最后一个倒排表中没有,所以每个倒排表都应该从7开始,而不是1: int first = 0; int doc = scorers[scorers.length - 1].docID(); Scorer firstScorer; while ((firstScorer = scorers[first]).docID() < doc) { doc = firstScorer.advance(doc); first = first == scorers.length - 1 ? 0 : first + 1; } return doc; advance方法: if (lastDoc == NO_MORE_DOCS) { return lastDoc; } else if (scorers[(scorers.length - 1)].docID() < target) { scorers[(scorers.length - 1)].advance(target); } return lastDoc = doNext();