44 BM25检索器：使用BM25方法搜索文档

最新推荐文章于 2025-09-05 03:56:05 发布

原创

最新推荐文章于 2025-09-05 03:56:05 发布 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#LLM #RAG #自然语言处理 #llamaindex #算法 #python #开发语言

BM25检索器：使用BM25方法搜索文档

在本指南中，我们定义了一个使用BM25方法搜索文档的BM25检索器。BM25（最佳匹配25）是一种排名函数，通过考虑词频饱和度和文档长度来扩展TF-IDF。BM25有效地根据查询词的出现和在整个语料库中的稀有性对文档进行排名。

设置

如果你在Colab上打开此笔记本，你可能需要安装LlamaIndex。

%pip install llama-index
%pip install llama-index-retrievers-bm25

设置OpenAI API密钥：

import os

os.environ["OPENAI_API_KEY"] = "sk-proj-..."

导入必要的库并设置模型：

from llama_index.core import Settings
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding

Settings.llm = OpenAI(model="gpt-3.5-turbo")
Settings.embed_model = OpenAIEmbedding(model_name="text-embedding-3-small")

下载数据

!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'

加载数据

首先展示如何将文档转换为一组节点，并插入到文档存储中。

from llama_index.core import SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader("./data/paul_graham").load_data()

初始化节点解析器并获取节点：

from llama_index.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

需要重新演唱

关注关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

RAGLangchain项目 BM25与向量语义检索混合策略设计：提升长尾关键词捕获能力及检索精度了文档的核心内容

05-05

对于性能优化方面，提出了使用asyncio.to_thread()解决同步方法带来的阻塞问题，并讨论了使用MongoDB替代ChromaDB存储文档片段的可能性。适合人群：对搜索引擎优化、信息检索技术感兴趣的开发者，尤其是那些希望...

精选资源

bm25-ranking-php:使用bm25排序算法对reuter的文档进行排序

07-11

1. **搜索引擎**：对用户查询的关键词，使用BM25算法快速找出最相关的文档。 2. **推荐系统**：根据用户的浏览历史和兴趣，使用BM25对商品或内容进行排序。 3. **新闻聚合**：自动对新闻文章进行排序，突出显示与...

参与评论您还未登录，请先登录后发表或查看评论

嵌入向量模型与BM25算法结合：并行检索获取多种结果

ZJQ的博客

11-07

410

嵌入向量模型与BM25算法在信息检索中各有优势，前者擅长捕捉语义信息，理解词语间的相似性，而后者则更擅长于基于关键词的精确匹配。将嵌入向量模型与BM25算法结合的方法可以应用于多种信息检索场景，如搜索引擎、智能问答系统、文档分类等。在这些场景中，用户输入的查询可能包含复杂的语义信息或特定的关键词，通过结合两种方法可以更准确地满足用户的需求。综上所述，将嵌入向量模型与BM25算法结合可以进一步提升信息检索的准确性和效率。通过并行检索、结果融合等策略，可以充分利用两种方法的优势，满足用户复杂多样的查询需求。

[深入浅出BM25：快速提升检索系统性能的秘密武器]

jaioyfpo的博客

11-19

629

BM25是一种用于信息检索的加权搜索算法，特别针对大规模文本数据的搜索优化。其核心思想是通过对词频（TF）和逆文档频率（IDF）的平衡调整，来衡量文档与查询的相关性。BM25作为信息检索中广泛使用的排名算法，对于提升系统性能具有显著效果。BM25算法的数学原理与实现Rank BM25 Python库文档Langchain社区的BM25检索器使用指南。

Perplexica搜索算法：BM25与向量搜索结合

最新发布

gitblog_00725的博客

09-05

990

Perplexica作为一款开源的AI驱动搜索引擎，其核心搜索算法采用了传统信息检索技术与现代向量搜索的巧妙结合。本文将深入解析Perplexica如何将BM25（Best Matching 25）算法与向量相似度搜索相结合，为用户提供精准、高效的搜索体验。 ## 搜索架构概览 Perplexica的搜索系统采用分层架构，结合了多种搜索技术： ```mermaid flowchart TD ...

深入了解BM25：信息检索的强大工具

dsndnwfk的博客

10-08

699

BM25作为一种经典的信息检索算法，其灵活性和简便性使得它在各种应用中广受欢迎。

Elasticsearch：BM25 及使用 Elasticsearch 和 LangChain 的自查询检索器

Elastic 中国社区官方博客

02-06

5177

本工作簿演示了 Elasticsearch 的自查询检索器将非结构化查询转换为结构化查询的示例，我们将其用于 BM25 示例。在这个例子中：如果你还没有安装好自己的 Elasticsearch 及 Kibana，请参考文章：如果你还没有安装好自己的 Elasticsearch 及 Kibana，那么请参考一下的文章来进行安装：如何在 Linux，MacOS 及 Windows 上进行安装 ElasticsearchKibana：如何在 Linux，MacOS 及 Windows 上安装 Elastic 栈中

一文搞懂 BM25 检索器：核心原理与快速上手指南

佑瞻的博客

06-13

1731

BM25 的核心价值在于：用简单高效的方式解决 TF-IDF 的固有缺陷，适合需要精准关键词匹配的场景。用上述代码跑通第一个 BM25 检索案例；在电商搜索、企业文档检索等场景测试效果；对比 BM25 与向量检索的差异，建立技术选型认知。

文本特征提取方法研究

码农之道

10-14

3294

一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化

123 深入解析BM25Retriever类：实现高效的文本检索

xycxycooo的博客

08-29

1275

Args:"""通过本文的详细解析，我们深入理解了类的工作原理及其在文本检索中的应用。通过提供必要的代码示例和解释，帮助程序员快速掌握并应用这一高效的检索技术。希望本文能为您的编程实践提供有益的参考和指导。

大模型RAG实战｜混合检索：BM25检索+向量检索的LlamaIndex实现

mama19971023的博客

08-06

5686

目前，大模型RAG系统中普遍采用混合检索来提升检索准确性。针对要回答的问题，同时通过。

BM25（Best Matching 25）介绍与使用

小白的博客

05-19

1847

BM25（Best Matching 25）是一种改进的信息检索算法，旨在克服传统TF-IDF的局限性。其核心原理包括词频饱和控制、文档长度归一化和参数可调节性。BM25通过非线性函数限制高频词的影响，并对长文档进行惩罚，避免其天然得分过高。其计算公式结合了逆文档频率（IDF）、词频（TF）和长度归一化因子，通过调节参数k1和b灵活控制词频和文档长度的影响。BM25在搜索引擎、问答系统和推荐系统中广泛应用，尤其在短查询与长文档的匹配场景中表现优异。与TF-IDF相比，BM25具有更强的抗长文档偏差能力和更高

python根据BM25实现文本检索

热门推荐

github_39281554的博客

06-23

1万+

根据BM25实现文本检索

BM25检索算法 python

消极的人永远是对的，积极的人选择勇往直前

04-23

5141

BM25（Best Matching 25）是一种经典的信息检索算法，是基于 TF-IDF算法的改进版本，旨在解决、TF-IDF算法的一些不足之处。其被广泛应用于信息检索领域的排名函数，用于估计文档D与用户查询Q之间的相关性。它是一种基于概率检索框架的改进，特别是在处理长文档和短查询时表现出色。BM25的核心思想是基于词频(TF)和逆文档频率(IDF)来,同时还引入了文档的长度信息来计算文档D和查询Q之间的相关性。目前被广泛运用的搜索引擎ES就内置了BM25算法进行全文检索。

141 BM25Retriever 检索步骤详解

xycxycooo的博客

09-11

1637

初始化：创建对象，传入节点列表或现有的 BM25 对象。构建 BM25 索引：如果没有传入 BM25 对象，则使用节点列表构建 BM25 索引。检索相关节点：对查询字符串进行分词和词干化处理，使用 BM25 算法检索相关节点，并将结果转换为对象列表。持久化和加载：支持将 BM25 索引和相关配置保存到磁盘，并在需要时加载。通过这些步骤，能够高效地检索与查询最相关的节点，适用于各种文本检索场景。

使用BM25算法在信息检索系统中进行文档排序

qahaj的博客

02-15

346

BM25是一种基于概率模型的排序函数。在信息检索领域，BM25被广泛应用于搜索引擎、问答系统和推荐系统中，用于估计文档与搜索查询的相关性。其核心思想是根据每个词在文档和查询中出现的频率，计算文档的相关性得分。

搜索引擎中广泛使用的文档排序算法——BM25（Best Matching 25）

ejinxian的专栏

11-24

1009

在搜索场景中，BM25能计算每个文档与查询的匹配度，从中找出最相关的文档，并按相关性高低排序展示。计算IDF，然后计算每个关键词的得分【图2】，再将各关键词的得分相加，得到文档的总相关性得分。- b：控制文档长度归一化的强度。- 文档1：包含“猫”和“养护”各2次，总长度100个词。- 文档1：同时包含“猫”和“养护”，得分较高。- 文档3：仅包含“养护”，且词频低，得分最低。- 文档2：包含“猫”3次，总长度150个词。- 文档3：包含“养护”1次，总长度80个词。- 文档2：仅包含“猫”，但词频较高。

RAG：BM25算法

qq_43814415的博客

10-21

1822

BM25（Best Matching 25）是一种基于词频和逆文档频率的排名函数，用于衡量文档与查询之间的相关性。在检索阶段，BM25 算法根据查询计算每个文档与查询的相关性得分，并排序返回相关文档。通过上述流程，BM25 可以有效地衡量文档与查询之间的相关性，为信息检索提供可靠的排序机制。：对所有文档计算与查询的 BM25 得分，形成一个文档得分列表。：根据得分从高到低排序文档，得分越高，文档与查询的相关性越强。：将每个查询词的得分累加，得到文档与查询的总相关性得分。：将用户的查询文本分割成词语列表。

如何使用BM25算法检索出最相关的序列

行步至春深

03-09

2281

两个步骤：1)将准备好的demo pool传给BM25okapi，这个过程会得到一个将哈希映射到序列的缓存字典 2)使用实例化后的BM25okapi，传入query，得到最相似的n个demo的哈希，再使用上一步得到的字典映射回序列。