利用FlashRank进行文档重排序和压缩的实战指南

最新推荐文章于 2025-12-03 12:28:21 发布

原创最新推荐文章于 2025-12-03 12:28:21 发布 · 547 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能 #linux

利用FlashRank进行文档重排序和压缩的实战指南

在现代搜索和信息检索系统中，重排序(re-ranking)技术是优化检索结果的重要手段。FlashRank是一款轻量且快速的Python库，旨在为现有的搜索和检索流水线添加重排序功能。本文将通过使用FlashRank库进行文档压缩和检索的完整流程来说明其应用。

技术背景介绍

在信息检索任务中，初始检索器通常返回大量文档，其中可能包含大量冗余或不相关的结果。重排序技术通过调整结果的排序，提高系统的检索准确性与用户满意度。FlashRank利用最新的cross-encoder技术，能够快速对文档进行重排序。

核心原理解析

FlashRank通过上下文相关的压缩检索器来对文档进行压缩和重排序。基于给定的查询语句，它能够从初始检索的文档中选择更相关的片段，优化最终结果。

代码实现演示

以下代码展示了使用FlashRank进行文档重排序和压缩的过程。确保您的环境中已安装flashrank和faiss库。

%pip install --upgrade --quiet flashrank
%pip install --upgrade --quiet faiss_cpu  # 根据Python版本选择合适的FAISS版本

首先，加载并初始化向量存储检索器，我们将使用2023年国情咨文作为示例数据。

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()  # 输入您的API密钥

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载文本数据并分块
documents = TextLoader("../../how_to/state_of_the_union.txt").load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

# 为每个文本块添加元数据
for idx, text in enumerate(texts):
    text.metadata["id"] = idx

# 初始化向量检索器
embedding = OpenAIEmbeddings(model="text-embedding-ada-002")
retriever = FAISS.from_documents(texts, embedding).as_retriever(search_kwargs={"k": 20})

# 执行查询
query = "What did the president say about Ketanji Brown Jackson"
docs = retriever.invoke(query)

接下来，使用FlashRank进行文档重排序：

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import FlashrankRerank
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(temperature=0)

# 设置压缩检索器和FlashRank
compressor = FlashrankRerank()
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

# 压缩重排序后的文档
compressed_docs = compression_retriever.invoke(query)
print([doc.metadata["id"] for doc in compressed_docs])

# 打印重排序后的文档内容
pretty_print_docs(compressed_docs)