Python LangChain RAG从入门到项目实战09.：LangChain 中的 Retriever（检索器）

原创已于 2025-08-27 20:32:38 修改 · 561 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #python

于 2025-08-27 19:38:12 首次发布

人工智能同时被 2 个专栏收录

79 篇文章

订阅专栏

Python

45 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

LangChain 中的 Retriever（检索器）

Python LangChain RAG从入门到项目实战10.：质量评价指标体系

在 LangChain 中，Retriever（检索器） 是一个核心组件，专门负责从知识库中检索与用户查询相关的信息。它的主要作用是根据输入的问题或查询，从大量文档中找到最相关的片段，为后续的问答或生成任务提供上下文。

在这里插入图片描述

1.Retriever 的主要功能

相似性检索：基于语义相似度找到与查询最相关的文档片段
关键字检索：基于关键词匹配找到相关文档
混合检索：结合多种检索策略提高检索质量
过滤与排序：对检索结果进行筛选和排序，返回最相关的内容

2.Retriever 的工作原理

典型的 Retriever 工作流程：

接收用户查询/问题
将查询转换为向量表示（使用嵌入模型）
在向量数据库中搜索相似向量
返回最相关的文档片段

3.Retriever 的类型

LangChain 支持多种类型的 Retriever：

向量存储检索器（VectorStore Retriever）
- 基于向量相似度进行检索
- 示例：Chroma、FAISS、Pinecone 等向量数据库
关键字检索器（Keyword-Based Retriever）
- 基于传统关键词匹配
- 示例：TF-IDF、BM25
集成检索器（Ensemble Retriever）
- 结合多种检索方法的结果
- 提高检索的召回率和准确率
上下文压缩检索器（Contextual Compression Retriever）
- 对检索到的文档进行压缩，只保留相关部分
- 减少不必要信息的传输

4.在代码中的使用示例

from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings

# 创建向量数据库
vectorstore = Chroma(
    persist_directory="./chroma_db",
    embedding_function=OllamaEmbeddings(model="nomic-embed-text")
)

# 创建检索器
retriever = vectorstore.as_retriever(
    search_type="similarity",  # 检索类型：相似度
    search_kwargs={"k": 3}     # 返回最相关的3个文档
)

# 使用检索器
query = "什么是机器学习？"
relevant_docs = retriever.invoke(query)