`DocIdSetIterator` 是 Lucene 倒排索引体系中的核心抽象类,用于顺序遍历一组递增的文档 ID(docId)集合。它是所有 倒排链(postings)、过滤器(Filter)、缓存(DocIdSet) 的底层迭代器。
---
✅ 一句话总结
> `DocIdSetIterator` 是一个只进(forward-only)迭代器,用于遍历满足某条件的 docId 列表,支持 `nextDoc()`、`advance(target)` 等方法,广泛用于查询、过滤、缓存等场景。
---
✅ 核心方法
方法名 作用说明
`int docID()` 返回当前迭代到的 docId,未开始时为 `-1`,结束为 `NO_MORE_DOCS`(即 `Integer.MAX_VALUE`)
`int nextDoc()` 移动到下一个 docId,返回新的 docId 或 `NO_MORE_DOCS`
`int advance(int target)` 跳到第一个 ≥ target 的 docId,支持快速跳跃
`long cost()` 估计该迭代器可能匹配的文档总数,用于查询优化
---
✅ 常见实现类
实现类 说明
`PostingsEnum` 倒排链迭代器,支持频率、位置等
`BitSetIterator` 基于 `FixedBitSet` 的缓存式迭代器
`FilteredDocIdSetIterator` 装饰器模式,包装另一个迭代器并加过滤逻辑
`ConjunctionDISI` 多个倒排链取交集时的组合迭代器
---
✅ 示例:构造一个倒排链迭代器并遍历
```java
import org.apache.lucene.index.*;
import org.apache.lucene.search.DocIdSetIterator;
import org.apache.lucene.store.*;
Directory dir = new RAMDirectory();
// ... 建索引过程省略 ...
try (DirectoryReader reader = DirectoryReader.open(dir)) {
LeafReaderContext ctx = reader.leaves().get(0);
Terms terms = ctx.reader().terms("title");
TermsEnum termsEnum = terms.iterator();
PostingsEnum postings = termsEnum.postings(null, PostingsEnum.NONE);
while (postings.nextDoc() != DocIdSetIterator.NO_MORE_DOCS) {
int docId = postings.docID();
System.out.println("匹配 docId = " + docId);
}
}
```
---
✅ 使用场景
- 查询执行:`Scorer.iterator()` 返回 `DocIdSetIterator`,用于遍历匹配文档。
- Query Cache:`CachingWrapperFilter` 内部用 `BitSetIterator` 缓存 bitset。
- 交集/并集计算:`ConjunctionDISI`、`DisjunctionDISIApproximation` 等继承自 `DocIdSetIterator`。
---
✅ 小结一句话
> `DocIdSetIterator` 是 Lucene 查询执行引擎的“游标”,所有从倒排链到缓存、过滤、交集的底层遍历都靠它完成。