【lucene】DocIdSetIterator

`DocIdSetIterator` 是 Lucene 倒排索引体系中的核心抽象类,用于顺序遍历一组递增的文档 ID(docId)集合。它是所有 倒排链(postings)、过滤器(Filter)、缓存(DocIdSet) 的底层迭代器。

 

---

 

✅ 一句话总结

 

> `DocIdSetIterator` 是一个只进(forward-only)迭代器,用于遍历满足某条件的 docId 列表,支持 `nextDoc()`、`advance(target)` 等方法,广泛用于查询、过滤、缓存等场景。

 

---

 

✅ 核心方法

 

方法名 作用说明 

`int docID()` 返回当前迭代到的 docId,未开始时为 `-1`,结束为 `NO_MORE_DOCS`(即 `Integer.MAX_VALUE`) 

`int nextDoc()` 移动到下一个 docId,返回新的 docId 或 `NO_MORE_DOCS` 

`int advance(int target)` 跳到第一个 ≥ target 的 docId,支持快速跳跃 

`long cost()` 估计该迭代器可能匹配的文档总数,用于查询优化 

 

---

 

✅ 常见实现类

 

实现类 说明 

`PostingsEnum` 倒排链迭代器,支持频率、位置等 

`BitSetIterator` 基于 `FixedBitSet` 的缓存式迭代器 

`FilteredDocIdSetIterator` 装饰器模式,包装另一个迭代器并加过滤逻辑 

`ConjunctionDISI` 多个倒排链取交集时的组合迭代器 

 

---

 

✅ 示例:构造一个倒排链迭代器并遍历

 

```java

import org.apache.lucene.index.*;

import org.apache.lucene.search.DocIdSetIterator;

import org.apache.lucene.store.*;

 

Directory dir = new RAMDirectory();

// ... 建索引过程省略 ...

 

try (DirectoryReader reader = DirectoryReader.open(dir)) {

    LeafReaderContext ctx = reader.leaves().get(0);

    Terms terms = ctx.reader().terms("title");

    TermsEnum termsEnum = terms.iterator();

    PostingsEnum postings = termsEnum.postings(null, PostingsEnum.NONE);

 

    while (postings.nextDoc() != DocIdSetIterator.NO_MORE_DOCS) {

        int docId = postings.docID();

        System.out.println("匹配 docId = " + docId);

    }

}

```

 

---

 

✅ 使用场景

 

- 查询执行:`Scorer.iterator()` 返回 `DocIdSetIterator`,用于遍历匹配文档。

- Query Cache:`CachingWrapperFilter` 内部用 `BitSetIterator` 缓存 bitset。

- 交集/并集计算:`ConjunctionDISI`、`DisjunctionDISIApproximation` 等继承自 `DocIdSetIterator`。

 

---

 

✅ 小结一句话

 

> `DocIdSetIterator` 是 Lucene 查询执行引擎的“游标”,所有从倒排链到缓存、过滤、交集的底层遍历都靠它完成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值