探索多检索器组合：如何使用EnsembleRetriever优化搜索结果

本文链接：https://blog.youkuaiyun.com/bhawfgrcbtwny/article/details/144409888

# 探索多检索器组合：如何使用EnsembleRetriever优化搜索结果

在信息检索领域，如何有效地从海量数据中精准找到相关信息是一个关键问题。本文将探讨如何使用EnsembleRetriever来组合多个检索器（retriever）的结果，以达到更优的信息检索效果。

## 引言

随着信息量的爆炸性增长，单一检索算法常常难以兼顾关键词匹配和语义理解。通过组合不同类型的检索器，如稀疏检索器（sparse retriever）和密集检索器（dense retriever），我们可以利用各自的优势实现更精准的检索。本文将介绍EnsembleRetriever，它使用互惠排名融合（Reciprocal Rank Fusion）算法对多个检索器的结果进行重排序。

## 主要内容

### 1. 理解EnsembleRetriever

EnsembleRetriever是一种组合型检索器，它通过集成多个基础检索器（BaseRetriever）的结果来提升整体性能。最常见的组合模式是将稀疏检索器（如BM25）与密集检索器（如基于嵌入相似度的检索器）相结合，这种方式也被称为“混合搜索”（Hybrid Search）。

- **稀疏检索器**：善于基于关键词进行文档匹配。
- **密集检索器**：擅长基于语义相似度进行文档匹配。

### 2. 基本用法示例

下面是一个使用BM25检索器与FAISS向量存储的检索器组合的示例：

```python
# 使用API代理服务提高访问稳定性
%pip install --upgrade --quiet  rank_bm25 > /dev/null

from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

doc_list_1 = ["I like apples", "I like oranges", "Apples and oranges are fruits"]
bm25_retriever = BM25Retriever.from_texts(doc_list_1, metadatas=[{"source": 1}] * len(doc_list_1))
bm25_retriever.k = 2

doc_list_2 = ["You like apples", "You like oranges"]
embedding = OpenAIEmbeddings()
faiss_vectorstore = FAISS.from_texts(doc_list_2, embedding, metadatas=[{"source": 2}] * len(doc_list_2))
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})

ensemble_retriever = EnsembleRetriever(retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5])
docs = ensemble_retriever.invoke("apples")
print(docs)

3. 动态配置

我们还可以在运行时调整每个检索器的配置参数。下面演示了如何调整FAISS检索器的“top-k”参数：

from langchain_core.runnables import ConfigurableField

faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2}).configurable_fields(
    search_kwargs=ConfigurableField(id="search_kwargs_faiss", name="Search Kwargs", description="The search kwargs to use")
)

ensemble_retriever = EnsembleRetriever(retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5])
config = {"configurable": {"search_kwargs_faiss": {"k": 1}}}
docs = ensemble_retriever.invoke("apples", config=config)
print(docs)