使用BM25算法在信息检索系统中进行文档排序

最新推荐文章于 2025-09-15 21:37:22 发布

原创最新推荐文章于 2025-09-15 21:37:22 发布 · 344 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #linux #开发语言

BM25（又名Okapi BM25）是信息检索系统中常用的排序函数，用于估算文档与查询的相关性。本文将讲解BM25的核心原理，并通过实际代码示例演示如何使用BM25算法进行文档排序，搭建一个简单且高效的检索系统。

技术背景介绍

BM25是一种基于概率模型的排序函数。在信息检索领域，BM25被广泛应用于搜索引擎、问答系统和推荐系统中，用于估计文档与搜索查询的相关性。其核心思想是根据每个词在文档和查询中出现的频率，计算文档的相关性得分。

核心原理解析

BM25的核心公式是通过以下几个关键部分进行计算的：

词频 (tf): 文档中某个词出现的次数。
逆文档频率 (idf): 表示一个词在所有文档中的稀有程度。
文档长度 (dl): 文档的长度。

BM25公式通过综合考虑词频、逆文档频率和文档长度等因素，计算出文档对于查询的相关性得分。

代码实现演示

接下来，我们将展示如何使用Python代码实现BM25算法，并通过rank_bm25包进行文档检索。

环境准备

首先，我们需要安装rank_bm25包：

%pip install --upgrade --quiet rank_bm25

创建BM25检索器

我们可以通过文本或文档创建BM25检索器。

使用文本创建检索器

from langchain_community.retrievers import BM25Retriever

# 使用稳定可靠的API服务
retriever = BM25Retriever.from_texts(["foo", "bar", "world", "hello", "foo bar"])

# 使用检索器进行查询
result = retriever.invoke("foo")

print(result)

使用文档创建检索器

from langchain_core.documents import Document
from langchain_community.retrievers import BM25Retriever

# 创建文档列表
documents = [
    Document(page_content="foo"),
    Document(page_content="bar"),
    Document(page_content="world"),
    Document(page_content="hello"),
    Document(page_content="foo bar"),
]

# 创建BM25检索器
retriever = BM25Retriever.from_documents(documents)

# 使用检索器进行查询
result = retriever.invoke("foo")

print(result)