Lucene：基于Java的全文检索引擎简介

最新推荐文章于 2021-02-28 10:50:11 发布

jationxiaozi

最新推荐文章于 2021-02-28 10:50:11 发布

阅读量500

点赞数

CC 4.0 BY-SA版权

分类专栏： java 文章标签：全文检索 lucene java query filter 代码分析

本文链接：https://blog.youkuaiyun.com/jationxiaozi/article/details/5980325

java 专栏收录该内容

49 篇文章

订阅专栏

本文深入分析了Lucene的查询过程，包括如何通过QueryParser解析查询字符串、构建查询对象，以及IndexSearcher如何利用这些信息搜索索引并返回结果。特别关注了PhraseQuery的工作原理和索引读取流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

5.   Lucene代码分析
应用情景分析

Query query = parser.parse(queries[j]);
获得布尔查询

hits = searcher.search(query);

return new Hits(this, query, filter);

getMoreDocs(50)

    TopDocs topDocs = searcher.search(query, filter, n)

      IndexSearcher:public TopDocs search(Query query, Filter filter, final int nDocs)

² IndexSearcher 开始时已经打开了该目录

² IndexSearcher 中初始化了IndexReader

² IndexReader中读取了SegmentInfos

² IndexReader ＝ SegmentReader

² SegmentReader ::initialize(SegmentInfo si)

n 1。读入域信息，只有域的名字

n 2. 打开保存域、保存域索引的文件

Scorer scorer = query.weight(this).scorer(reader)

u 这里query = PhraseQuery

u query.weight(this) 获得PhraseWeight（IndexSearcher）

u PhraseWeight：：scorer(IndexReader reader)

u PhraseQuery：：TermPositions p = reader.termPositions((Term)terms.elementAt(i));

u public TermPositions termPositions(Term term) throws IOException {

IndexReader：：TermPositions termPositions = termPositions();

SegmentTermDocs：：SegmentTermDocs(SegmentReader parent)

throws IOException {

this.parent = parent;

this.freqStream = (InputStream) parent.freqStream.clone();//频率文件
this.deletedDocs = parent.deletedDocs;

this.skipInterval = parent.tis.getSkipInterval();

}

SegmentTermPositions：：SegmentTermPositions(SegmentReader p) throws IOException {

super(p);

this.proxStream = (InputStream)parent.proxStream.clone();//位置文件

}

IndexReader = SegmentReader, IndexSearcher
termPositions.seek(term);

SegmentTermDocs：：public void seek(Term term) throws IOException {

TermInfo ti = parent.tis.get(term);// parent ＝SegmentReader

// tis ＝TermInfosReader

// 在初始化SegmentTermDocs的时候读取文件并创建了

// tis = new TermInfosReader(cfsDir, segment, fieldInfos);
/**

* 1。从.tis文件中读取相关的信息到项的迭代对象

* 2。得到项的迭代对象

* 3。该项读取器的 size ＝该项迭代对象的 size

* 4。读取索引，初始化了索引指针，索引

* */
seek(ti);

}

return termPositions;

² SegmentReader. termPositions()：：return SegmentTermPositions(this)`

<p>一个权重由query创建，并给查询器({@link Query#createWeight(Searcher)})使用，方法 {@link #sumOfSquaredWeights()}，然后被最高级的查询api调用

用来计算查询规范化因子 (@link Similarity#queryNorm(float)})，然后该因子传给{@link #normalize(float)} 然后被{@link #scorer(IndexReader)}调用