深入理解ElasticSearch的BM25算法：实现高效文本检索

最新推荐文章于 2025-10-20 13:45:35 发布

原创

最新推荐文章于 2025-10-20 13:45:35 发布 · 1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #jenkins #大数据 #python

引言

在现代信息检索系统中，如搜索引擎和文档数据库的实现中，BM25算法扮演了一个关键的角色。ElasticSearch作为一个强大的分布式搜索和分析引擎，利用BM25来对文档进行排名，以提高搜索结果的相关性。本文将深入探讨ElasticSearch中BM25的使用，并提供一个代码示例，帮助你在项目中实现这一功能。

主要内容

什么是BM25？

BM25（Best Matching 25）是基于概率检索框架的排名函数，它通过评估文档与查询词的匹配程度来估计文档的相关性。BM25在20世纪70年代和80年代由Stephen E. Robertson和Karen Spärck Jones等人开发，它可以视为TF-IDF（词频-逆文档频率）模型的改进。

ElasticSearch中的BM25

ElasticSearch使用BM25作为其默认的评分算法。其主要优势在于它能够考虑到文档长度的影响，并且对查询词频率进行了非线性处理，这使得它在处理长文档和短文档时都表现优异。

使用ElasticSearch BM25 Retriever

ElasticSearch提供了一些工具和库，帮助开发者在项目中集成BM25排名。通过使用诸如ElasticSearchBM25Retriever这样的库，我们可以轻松地创建检索器并进行文本查询。

代码示例

# 安装elasticsearch Python客户端
%pip install

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tt_jishu

关注关注

14
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深入理解TF-IDF、BM25算法与BM25变种：揭秘信息检索的核心原理与应用

丨汀、的博客

01-08

2882

深入理解TF-IDF、BM25算法与BM25变种：揭秘信息检索的核心原理与应用

BM25算法, Best Matching

大鹏的专栏

05-13

1970

BM25 其实是一个（准确说，是一系列）经验公式，这里面的每一个环节都是经过很多研究者的迭代而逐步发现的。很多研究在理论上对 BM25 进行了建模，从“概率相关模型”（Probabilistic Relevance Model）入手，推导出 BM25 其实是对某一类概率相关模型的逼近。从结果上看，我们应该明了 BM25 权重计算公式，已经在众多的数据集和搜索任务上，被极其高频广泛和成功地使用。BM25 算法公式由三个主要的模块构成，包括。

参与评论您还未登录，请先登录后发表或查看评论

BM25算法概述

最新发布

qq_54708219的博客

10-20

1025

BM25是一个强大而高效的检索算法，它比传统的TF-IDF模型更加精细和健壮。非线性TF处理：避免了高频词的过度主导。智能长度归一化：有效解决了长文档在统计上的优势。坚实的理论基础：源于概率检索模型。因此，BM25被广泛应用于各种搜索引擎和检索系统中，包括Elasticsearch和Lucene等知名开源项目，至今仍是许多实际应用的基准检索算法。q_iq_i。

深入解析BM25：LangChain中的高效检索算法

AI Agent 首席体验官

03-19

1460

BM25是信息检索领域中一个重要的排序算法，它用来计算查询与文档之间的相关性。让我们通过一个图书馆的例子来理解：想象你是一个图书馆管理员，有人来问你：“我想找关于太空探索和火星的书”。：就像你先数一数每本书中"太空探索"和"火星"这些词出现的次数，然后优先推荐这些词出现最多的书。但这有个问题：如果一本1000页的书和一本100页的书都提到"火星"10次，按理说短书中这个词更重要，但简单计数无法体现这点。：BM25认为一个词出现次数多不等于无限重要。

Elastic开源社区

05-17

5128

通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

科技很有意思

03-05

2051

探索ElasticSearch中的BM25算法：提升全文检索效果的新利器

jaioyfpo的博客

10-08

734

BM25作为全文检索的基础算法，在ElasticSearch中扮演着重要角色。掌握其原理和使用方法，可以显著提升搜索系统的性能。有关BM25更深入的内容，可以参考以下学习资源。

深入浅出ElasticSearch BM25：实现最佳匹配搜索

jaioyfpo的博客

10-18

807

BM25是一种基于概率检索框架的排名函数，旨在衡量文档与给定查询之间的相关性。它是TF-IDF的改进版本，广泛用于搜索引擎排名。BM25作为一款强大的排名算法，在ElasticSearch中提供了优化的相关性检索功能。通过合理的参数调整和数据准备，可以显著提升搜索结果的准确性。建议进一步阅读ElasticSearch官方文档，深入了解BM25及其配置。

使用Elasticsearch和BM25实现高效文档检索

VYSAHF的博客

03-24

609

Elasticsearch以其分布式、多租户、RESTful的特性，成为构建复杂搜索应用的首选解决方案。其全文本搜索能力极为强大，支持通过各种检索算法获得相关性极高的检索结果。BM25（Okapi BM25）是基于概率检索模型的排名函数，最早由伦敦城市大学的Okapi信息检索系统实现，常被用于搜索引擎中以优化文档的相关性排序。

浅析 ElasticSearch 默认算法 —— BM25

XiaoMing学习分享博文

07-06

2608

python根据BM25实现文本检索

热门推荐

github_39281554的博客

06-23

1万+

根据BM25实现文本检索

BM25

西二旗小码农

08-02

2296

黄天不服苦心人，终于实现了，用trac（最早那个版本700M数据）的数据测了一下，和lucene的原有算法排序基本一致，共享一下代码：很粗陋，还需要改很多： package org.apache.lucene.BM25; import java.io.IOExceptio

BM25模型

m0_61417342的博客

06-14

977

BM25实验

BM25 是一种经典的信息检索（IR）算法

mayaohao的博客

08-18

625

BM25 是信息检索的 “基本功”—— 它用简单的数学逻辑（加权计算关键词匹配度）解决了 “如何快速找到相关信息” 的核心问题，至今仍是各类检索系统的 “标配组件”。虽然在语义理解上不如深度学习模型，但凭借 “快、稳、抗干扰” 的优势，在需要大规模、实时检索的场景中（如搜索引擎、文档库），依然是不可替代的基础算法。

关于BM25

qq_43422201的博客

03-04

1438

BM25 (Best Matching 25) 算法

mayaohao的博客

07-09

931

算法，用于计算查询 (query) 与文档 (doc) 之间的相关性得分。BM25 是信息检索领域中经典的排序算法，在搜索引擎和文档检索系统中广泛使用。参数，BM25 可以适应不同类型的文本数据（如新闻、社交媒体、学术论文等）。

搜索引擎中广泛使用的文档排序算法——BM25（Best Matching 25）

ejinxian的专栏

11-24

999

在搜索场景中，BM25能计算每个文档与查询的匹配度，从中找出最相关的文档，并按相关性高低排序展示。计算IDF，然后计算每个关键词的得分【图2】，再将各关键词的得分相加，得到文档的总相关性得分。- b：控制文档长度归一化的强度。- 文档1：包含“猫”和“养护”各2次，总长度100个词。- 文档1：同时包含“猫”和“养护”，得分较高。- 文档3：仅包含“养护”，且词频低，得分最低。- 文档2：包含“猫”3次，总长度150个词。- 文档3：包含“养护”1次，总长度80个词。- 文档2：仅包含“猫”，但词频较高。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节

铭毅天下Elasticsearch

07-03

7221

Elasticsearch 5 之前的版本，评分机制或者打分模型基于 TF-IDF 实现。从 Elasticsearch 5 开始，Elasticsearch 的默认相似度算法是 Okap...

bm25算法实现

06-12

<think>嗯，用户询问的是关于BM25算法的实现方法和代码示例。用户是技术人员，需要具体实现代码，所以要把实用性和可操作性放在首位。结合引用资料，需要从BM25公式出发展示推导过程，再选择几个语言的实现示例。用户上次问到的是原理性问题（公式各参数含义），这次明显是要动手实践了。代码展示要重点解释参数调节部分（引用1/5提到的k1、b取值），特别是ElasticSearch和gensim的实现差异。考虑到用户可能直接复制代码去用，参数默认值和调节范围必须标注清楚。从引用2/4可以看出用户特别关注ElasticSearch环境，所以把ES的index配置示例单列出来。引用5的gensim示例要补全query处理步骤，原来代码只计算了分数没排序结果。不过用户没提特定语言偏好，所以再补充个基础Python实现，避免依赖第三方库的情况。公式推导部分要注意用变量标注（引用3的术语），比如区分文档长度avgdl的计算方式。那个易错点提醒很有必要——很多初学者会把IDF计算成log(1+N/df)而忘记加1。参数实验值（k1=1.2,b=0.75）要加粗强调，这是引用5里验证过的经验值。最后保留三个延展问题：混合搜索涉及当前热门的传统算法+神经网络组合方案（引用1/4提到的），性能调优匹配用户上次问原理的连续性，开源库比较则解决环境适配问题。用户如果跑通示例代码后，很自然会遇到这些进阶问题。</think> 以下是基于BM25算法原理的代码实现示例及详细解析，结合引用资料中的关键信息整合： --- ### 一、BM25算法公式回顾 BM25评分公式为： $$ \text{score}(D,Q) = \sum_{i=1}^{n} \text{IDF}(q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)}{f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgdl}})} $$ 其中： - $q_i$：查询词项 - $f(q_i, D)$：词项在文档$D$中的频率（TF） - $|D|$：文档长度（词数） - $\text{avgdl}$：语料库中文档平均长度 - $k_1, b$：调节参数（默认$k_1=1.2$, $b=0.75$） --- ### 二、Python实现示例（纯NumPy） ```python import numpy as np from collections import defaultdict class BM25: def __init__(self, corpus, k1=1.2, b=0.75): self.k1 = k1 self.b = b self.corpus = corpus self.doc_lengths = np.array([len(doc) for doc in corpus]) self.avgdl = np.mean(self.doc_lengths) self.df = self._calculate_df() self.N = len(corpus) def _calculate_df(self): """计算每个词的文档频率（DF）""" df = defaultdict(int) for doc in self.corpus: for word in set(doc): df[word] += 1 return df def _idf(self, term): """逆文档频率计算""" return np.log((self.N - self.df[term] + 0.5) / (self.df[term] + 0.5) + 1) def get_score(self, query): """计算所有文档对查询的BM25得分""" scores = np.zeros(self.N) for term in query: if term not in self.df: continue idf = self._idf(term) for i, doc in enumerate(self.corpus): tf = doc.count(term) # 词频TF # 长度归一化因子 norm = 1 - self.b + self.b * len(doc) / self.avgdl # 词项得分累加 scores[i] += idf * (tf * (self.k1 + 1)) / (tf + self.k1 * norm) return scores # 示例使用 corpus = [ ["人工智能", "技术", "应用", "领域"], ["机器学习", "算法", "模型", "训练"], ["自然语言处理", "文本分析", "BM25", "检索"] ] bm25 = BM25(corpus) query = ["自然语言处理", "BM25"] scores = bm25.get_score(query) print("文档得分:", scores) # 输出各文档相关性得分 ``` --- ### 三、关键实现说明 1. **IDF计算** 使用Robertson-Walker平滑公式： $$ \text{IDF}(q_i) = \log \frac{N - df(q_i) + 0.5}{df(q_i) + 0.5} + 1 $$ 避免未登录词导致除零错误[^3]。 2. **长度归一化** 文档长度惩罚项 $ \frac{|D|}{\text{avgdl}} $ 通过参数$b$（默认0.75）控制，抑制长文档优势[^1]。 3. **参数调节** - $k_1$：控制词频饱和度（常取1.2-2.0） - $b$：控制文档长度影响（常取0.75）根据场景调整可优化搜索结果[^4]。 --- ### 四、在ElasticSearch中的应用 ElasticSearch内置BM25作为默认评分算法，可通过`settings`调整参数： ```json PUT /my_index { "settings": { "similarity": { "custom_bm25": { "type": "BM25", "k1": 1.5, // 调高词频影响 "b": 0.8 // 加强长度惩罚 } } }, "mappings": { "properties": { "content": { "type": "text", "similarity": "custom_bm25" // 应用自定义参数 } } } } ``` 通过`explain=true`可查看BM25评分细节[^1][^4]。 --- ### 🚀 性能优化建议 1. **提前计算DF值** 在索引构建阶段预计算文档频率，加速查询响应。 2. **稀疏向量处理** 对长尾词项使用倒排索引跳过，减少计算量。 3. **并行计算** 对大规模语料，按文档分片并行计算得分。 ---