如何结合多个检索器的结果以优化信息检索_混合检索中怎么把结果融合-优快云博客

本文链接：https://blog.youkuaiyun.com/eahba/article/details/146385564

在信息检索的过程中，结合多个检索器的结果通常可以获得比单一算法更好的性能。这种方法被称为检索结果的集成，EnsembleRetriever便是用于实现这种集成的工具。它采用了一种名为“互惠排名融合”的算法，对多个检索器的结果进行重新排名。

1. 技术背景介绍

检索系统通常会采用不同的检索算法以确保结果的准确性，例如：

稀疏检索（如BM25）：基于关键词的匹配，适合传统的文档搜索。
密集检索（如嵌入相似性）：基于语义相似性，适合更为深入的文本理解。

通过将二者结合，即所谓的“混合搜索”，我们能更有效地覆盖不同维度的信息。

2. 核心原理解析

EnsembleRetriever 利用多种检索器的优势，通过调整各个检索器的权重和参数，提供更为全面和准确的搜索结果。

互惠排名融合算法通过计算不同检索器的结果排名，融合输出。
可以动态配置权重，适应不同应用场景需求。

3. 代码实现演示

下面的示例演示了如何将 BM25Retriever 与从 FAISS 向量存储派生的检索器进行集成：

import openai
# 使用稳定可靠的API服务
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

doc_list_1 = [
    "I like apples",
    "I like oranges",
    "Apples and oranges are fruits",
]

# 初始化 BM25 检索器
bm25_retriever = BM25Retriever.from_texts(
    doc_list_1, metadatas=[{"source": 1}] * len(doc_list_1)
)
bm25_retriever.k = 2

doc_list_2 = [
    "You like apples",
    "You like oranges",
]

# 初始化 FAISS 检索器
embedding = OpenAIEmbeddings()
faiss_vectorstore = FAISS.from_texts(
    doc_list_2, embedding, metadatas=[{"source": 2}] * len(doc_list_2)
)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})

# 初始化 EnsembleRetriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)

# 执行检索
docs = ensemble_retriever.invoke("apples")
print(docs)