【Lucene】SimScorer

最新推荐文章于 2025-12-02 21:46:06 发布

原创最新推荐文章于 2025-12-02 21:46:06 发布 · 401 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #lucene

Elasticsearch源码解读专栏收录该内容

28 篇文章

订阅专栏

SimScorer 就是 Lucene 中真正给“某个 term 在一篇文档里的打分”算分的最小执行单元，被 `TermScorer` 等 scorer 调用，完成 TF-IDF、BM25 等算法的实际数值计算。

---

1. 它在哪？

- 定义在 `org.apache.lucene.search.similarities.Similarity.SimScorer`（内部静态抽象类）。

- 每个 `Similarity` 实现（如 `BM25Similarity`）都会创建自己的 `SimScorer` 子类（如 `BM25Scorer`）。

2. 它做什么？

对外只有两个核心动作：

1. score(float freq, long norm)

根据“词频 freq”和“字段长度编码 norm”立即返回该 term 在该文档的分数。

2. explain(...)

生成人类可读的 `Explanation`，告诉你为啥得这个分。

3. 什么时候被用到？

查询阶段：

- `IndexSearcher` → `TermQuery$TermWeight.scorer()` → `TermScorer` → `TermScorer.score()` 内部调用 `simScorer.score(freq, norm)`。

也就是说，每匹配一篇文档，都会跑一次 `SimScorer.score(...)`。

4. 用 BM25 举例

```java

// 在 BM25Similarity 内部

public final SimScorer simScorer(...) {

...

return new BM25Scorer(boost, k1, b, idf, avgdl, cache);

}

```

`BM25Scorer.score(freq, norm)` 就是标准 BM25 公式：

```java

return weight * (freq / (freq + K(norm)));

```

其中 `K(norm)` 已经预先缓存到 `cache[]` 中，保证每次打分只做一次乘除。

---

✅ 一句话记住

> SimScorer = Lucene 相似度算法的“微积分”：给定词频和文档长度，立刻吐出该 term 的得分。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

risc123456

关注关注

8
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Lucene bm25 结合 jieba中文分词搜索

深挖技术点滴

03-11

1827

考虑到jieba分词能够补充词表，性能相对较好，因此用bm25搭配jieba分词做一个搜索的demo 思路：利用jieba分词对语句进行分词，再用空格键对分词结果进行拼接；然后利用luncene自带的空格分词对拼接的字符串进行分词，实现依靠jieba分词中文的效果 JAVA代码如下 package com.bm25; import org.apache.lucene.analysis...

Lucene查询的底层实现IndexSearch（上）

qq_47537678的博客

03-27

1468

系列文章目录（一）问答系统的文段检索（二）lucene全文检索底层原理理解（三）Lucene查询的底层实现IndexSearch 文章目录系列文章目录前言IndexReaderLeafReaderCompositeReaderIndexReaderContextIndexReader 指向索引文件夹QueryParser 解析查询语句生成查询对象搜索查询对象重写Query对象树多态创建weight树获取termstates构造TermWeight 前言搜索的过程理解：从索引中读出词典及倒排表信息

参与评论您还未登录，请先登录后发表或查看评论

Apache Lucene

Java_soul_GJH的博客

08-14

873

摘要：文章介绍了Apache Lucene的核心概念、基础使用步骤以及高级功能实现。其中包括倒排索引、分析器、评分机制等内容，并提供了Java代码示例。此外，还探讨了Lucene的优势、局限性和性能优化建议。最后，给出了Lucene中文分词与优化实践的详细讲解。

Lucene相似度源码详解

weixin_39644001的博客

01-06

1304

2、lucene当前BM25相似度计算逻辑本章节先对和算法最相关的类进行介绍，然后用实际案例介绍相似度算法的计算流程，最后介绍explain的实现。 2.0、Lucene相似度接口 org.apache.lucene.search.similarities.Similarity 其中有个内部类：org.apache.lucene.search.similarities.Similarity.SimScorer 这个类提供两个方法，一个用于计算相似度得分，另一个用来解释相似度得分 public

Lucene查找过程源码分析

花开的博客

08-11

651

Lucene查找过程源码分析

标准的BM25实现 for Lucene

Love-Coding

09-18

653

import org.apache.lucene.index.FieldInvertState; import org.apache.lucene.index.IndexOptions; import org.apache.lucene.search.CollectionStatistics; import org.apache.lucene.search.Explanation; import...

深入掌握全文检索引擎Lucene实战

weixin_42576467的博客

09-07

819

Lucene 是 Apache 基金会下的开源全文检索引擎库，广泛应用于搜索引擎、日志分析、大数据检索等领域。它不提供开箱即用的搜索引擎，而是为开发者提供了构建全文检索系统的底层 API，具有高度的灵活性与可扩展性。其核心特性包括：高性能倒排索引：支持快速构建和查询倒排索引结构多语言支持：可通过插件支持多种语言的分词与检索灵活的查询语法：支持布尔查询、短语查询、模糊查询等多种查询方式分布式扩展能力。

Lucene检索源码解析（下）

热门推荐

黄智霖的博客

04-26

1万+

上文已经介绍了检索前的准备工作，本文接着上文的内容，继续剖析检索和打分操作一、获取LeafCollector 我们先来看一下IndexSearcher的search方法： protected void search(List<LeafReaderContext> leaves, Weight weight, Collector collector) throws ...

Lucene TFIDFSimilarity

jollyjumper的专栏

04-20

2852

读了Lucene打分文档之后，有必要了解一下TFIDFSimilarity中的调用堆栈。 public abstract class TFIDFSimilarity extends Similarity { public TFIDFSimilarity() {} @Override // overlap overlap

lucene4.5源码分析系列：搜索过程

soledede

09-17

153

IndexSearcher是搜索的入口，主要提供的api都是关于search的。关于搜索，比较有意思的话题有这么几个：如何计算打分，这个问题已经在空间向量模型一文中讨论过？如何从一个搜索词得到一个Query对象？如何从Query对象到评分器从而计算打分的？几个重要的参数是如何在被组织起来计算的，比如n, filter, sort, collector等。另外，分页是如何进行的？本文以展...

Lucene查询的底层实现IndexSearch（下）

qq_47537678的博客

03-27

888

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可

Lucene 如何处理中文分词？有哪些推荐的分词器？如何优化 Lucene 索引的写入速度？Lucene 的评分机制如何影响搜索结果排序？Lucene 如何处理近义词扩展和语义搜索？在大数据场景下如何优化 Lucene 的索引合并性能？Lucene 的分布式部署方案有哪些最佳实践？

08-15

public SimScorer scorer(BasicStats stats) { return new BM25Similarity().scorer(stats); // 继承BM25基础 } // 添加点击率权重因子 @Override public float scorePayload(int doc, int start, int end, ...

帮我写一个基于lucene8.11版本的自评分搜索系统

05-29

好的，下面是一个基于Lucene 8.11版本的自评分搜索系统的实现流程： 1. 创建索引首先，需要创建一个索引，并将需要搜索的文档添加到索引中。可以使用Lucene提供的IndexWriter类来实现。 ```java ...

Docker下安装ES和kibana详细教程

yohann1991的博客

12-02

239

最近工作需要，原来把项目日志数据存入mysql，导致mysql宕机，现在想着试试把日志数据存入es中，减轻mysql压力，以下是本人在测试环境的操作过程。下面是详细的步骤，包含创建网络、创建卷、运行 ES 和运行 Kibana。以上就是ES和kibana的安装过程，希望对读者有帮助。

SpringBoot的@Scheduled和@Schedules有什么区别

2509_94189991的博客

11-30

759

对于更复杂的需求，比如调整线程池大小或者设置线程名称前缀等，你可以通过自定义来进行配置。Spring提供了几种内置的调度器实现，如和。@Override@Override@Override// 自定义异常处理逻辑。

Elastic Stack梳理：深度解析Elasticsearch分布式查询机制与相关性算分优化实践

Wang的专栏

12-02

749

分布式搜索中的Elasticsearch面临查询流程复杂性和相关性算分失真两大挑战。Query-Then-Fetch机制通过两阶段处理：Query阶段各分片独立计算并返回Top N文档，Fetch阶段聚合完整数据。分片本地统计导致BM25算法算分偏差，解决方案包括单分片模式、DFS查询模式（预收集全局统计量）和混合方案。NestJS集成示例展示了基础检索和DFS算分修正的实现。关键点在于分片选择必须覆盖所有ID，深分页需调整参数，DFS模式虽提升算分准确性但增加性能开销。

Canvas架构手记 08 副作用与同步 | 不可变更新 | 调试与错误边界 | ESLint