125 深入解析BM25Retriever的持久化与检索方法：实现高效的数据存储与查询

最新推荐文章于 2025-09-16 18:24:00 发布

原创

最新推荐文章于 2025-09-16 18:24:00 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#LLM #RAG

深入解析BM25Retriever的持久化与检索方法：实现高效的数据存储与查询

在前两篇文章中，我们详细解析了BM25Retriever类的初始化方法和from_defaults类方法。本文将继续深入探讨该类的持久化与检索方法，包括get_persist_args、persist、from_persist_dir和_retrieve方法。通过这些方法，程序员可以高效地存储和检索数据，提升系统的性能和可维护性。

前置知识

在继续之前，确保您已经熟悉以下概念：

持久化（Persistence）：将数据存储到持久存储（如硬盘）中的过程，以便在程序重启后可以恢复数据。
JSON：一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。
QueryBundle：表示查询的封装类，包含查询字符串等信息。
NodeWithScore：表示带有分数的节点类，用于存储检索结果。

方法解析

get_persist_args方法

def get_persist_args(self) -> Dict[str, Any]:
    """Get Persist Args Dict to Save."""
    return {
   
   
        DEFAULT_PERSIST_ARGS[key]: getattr(self, key)
        for key in DEFAULT_PERSIST_ARGS
        if hasattr(self, key)
    }

代码解析

功能：
- 获取需要持久化的参数字典。
实现：
- 使用字典推导式，遍历DEFAULT_PERSIST_ARGS中的键。
- 检查当前对象是否具有该属性，如果有则获取该属性的值，并将其添加到返回的字典中。

persist方法

def persist(self, path: str, **kwargs: Any) -> None:
    """Persist the retriever to a directory."""
    self.bm25.save(path, corpus=self.corpus, **kwargs)
    with open(os.path.join(path, DEFAULT_PERSIST_FILENAME), "w") as f:
        json.dump(self.get_persist_args(), f, indent=2)

代码解析

功能：
- 将检索器持久化到指定目录。
实现：
- 调用bm25对象的save方法，将BM25对象和语料库保存到指定路径。
- 打开指定路径下的文件，使用json.dump方法将持久化参数字典写入文件。

from_persist_dir类方法

@classmethod
def from_persist_dir(cls, path: str, **kwargs: Any) -> "BM25Retriever":
    """Load the retriever from a directory."""
    bm25 = bm25s.BM25.load(path, load_corpus=True, **kwargs)
    with open(os.path.join(path, DEFAULT_PERSIST_FILENAME)) as f:
        retriever_data = json.load(f)
    return cls(existing_bm25=bm25, **retriever_data)

代码解析

功能：
- 从指定目录加载检索器。
实现：
- 调用bm25s.BM25.load方法，从指定路径加载BM25对象和语料库。
- 打开指定路径下的文件，使用json.load方法读取持久化参数字典。
- 使用加载的BM25对象和参数字典，调用类的初始化方法创建BM25Retriever实例。

_retrieve方法

def _retrieve(self, query_bundle: QueryBundle) -> List[NodeWithScore]:
    query = query_bundle.query_str
    tokenized_query = bm25s.tokenize(
        query, stemmer=self.stemmer, show_progress