LangChain RAG入门教程：构建基于私有文档的智能问答助手

最新推荐文章于 2025-10-17 22:42:30 发布

原创最新推荐文章于 2025-10-17 22:42:30 发布 · 750 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #人工智能 #机器学习 #ai大模型 #大模型应用 #RAG #AI

本文详述了如何通过检索增强生成(RAG)技术构建一个能够利用特定文档集合回答问题的AI系统。通过LangChain框架，可以实现超越预训练模型知识范围的定制化问答能力，适用于专业领域的精准信息检索与生成。

RAG技术概述及其重要性

在深入技术实现前，需要理解RAG技术的核心价值。传统语言模型如GPT-4尽管功能强大，但其知识库受限于训练数据，无法有效访问新增信息或特定领域文档。

RAG技术通过融合两个关键功能模块解决了这一局限：

检索系统：从文档集合中精确定位相关信息
生成机制：基于检索到的上下文信息生成准确、相关的响应

这种结构设计的优势在于能够构建一个基于特定知识库的AI问答系统，有效降低了幻觉（hallucination）现象，显著提升了回答的事实准确性。

LangChain框架：RAG系统的技术基础

LangChain已成为RAG应用开发的主流框架，其提供了构建完整RAG系统所需的全部核心组件：

多格式文档加载器，支持各类文件类型的处理
文本分割器，用于将文档切分为可处理的数据块
向量存储系统，提供高效的内容索引功能
文本嵌入模型，实现文本到向量的转换
检索机制，用于查找相关信息
链式处理流程，协调整个系统的运行逻辑

凭借这些组件的整合，LangChain极大地简化了RAG系统的构建复杂度，使得即使对AI开发经验有限的开发者也能实现功能完备的RAG应用。

Python代码

1、环境配置与基础设置

首先需要安装必要的库包，包括LangChain核心、社区扩展、向量数据库(FAISS)以及语言模型处理工具：

# filepath: example.py
# 安装所需的库
!pipinstalllangchainlangchain-communityfaiss-cpusentence-transformerstransformers

接下来导入系统所需的各个组件：

# filepath: example.py
# 核心 LangChain 组件
fromlangchain.llmsimportHuggingFacePipeline
fromlangchain.chainsimportRetrievalQA, LLMChain
fromlangchain.chains.question_answeringimportload_qa_chain
fromlangchain.promptsimportPromptTemplate

# LangChain 社区组件
fromlangchain_community.vectorstoresimportFAISS
fromlangchain_community.document_loadersimportTextLoader
fromlangchain_community.embeddingsimportHuggingFaceEmbeddings

# Hugging Face 组件
fromtransformersimportpipeline

# 标准库
importos
importurllib.request
importzipfile

2、知识库构建

RAG系统的基础是高质量的知识库。本实现中，我们使用一个包含亚洲各目的地信息的数据集作为示例：

# filepath: example.py
# 下载并提取我们的示例数据集
zip_url="https://github.com/gakudo-ai/open-datasets/raw/refs/heads/main/asia_documents.zip"
zip_path="asia_documents.zip"
extract_folder="asia_txt_files"

print("Downloading sample documents...")  # 正在下载示例文档...
urllib.request.urlretrieve(zip_url, zip_path)

print("Extracting files...")  # 正在提取文件...
os.makedirs(extract_folder, exist_ok=True)
withzipfile.ZipFile(zip_path, "r") aszip_ref:
    zip_ref.extractall(extract_folder)

print(f"Successfully extracted {len(os.listdir(extract_folder))} documents to {extract_folder}")  # 成功提取 {len(os.listdir(extract_folder))} 个文档到 {extract_folder}

3、文档处理与分块策略

RAG系统的关键步骤是文档的处理与分块。这一阶段包括：

文档加载
将文档分割为适当大小的块
为每个文本块生成向量表示

# filepath: example.py
# 从文件夹加载所有文本文件
documents= []
forfilenameinos.listdir(extract_folder):
    iffilename.endswith(".txt"):
        file_path=os.path.join(extract_folder, filename)
        loader=TextLoader(file_path)
        documents.extend(loader.load())

print(f"Loaded {len(documents)} documents")  # 加载了 {len(documents)} 个文档

# 将文档拆分成更小的块，以便更好地检索
fromlangchain.text_splitterimportCharacterTextSplitter

text_splitter=CharacterTextSplitter(
    chunk_size=500,  # 每个块的字符数
    chunk_overlap=100  # 块之间的重叠以保持上下文
)
docs=text_splitter.split_documents(documents)

print(f"Created {len(docs)} document chunks")  # 创建了 {len(docs)} 个文档块

4、向量数据库构建

RAG系统的核心是向量数据库，它实现了基于语义的高效搜索。本实现采用FAISS作为向量存储引擎，结合句子转换模型构建嵌入表示：

# filepath: example.py
# 初始化嵌入模型
embedding_model=HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"  # 速度和质量的良好平衡
)

# 从我们的文档块创建一个向量存储
vectorstore=FAISS.from_documents(docs, embedding_model)

# 创建一个检索器接口

retriever=vectorstore.as_retriever(
    search_kwargs={"k": 3}  # 检索前 3 个最相关的块
)

print("Vector database created successfully!")  # 向量数据库创建成功！

5、语言模型配置

本实现使用GPT2作为基础模型，但实际应用中可替换为更高性能的模型如Llama-2或Mistral：

# filepath: example.py
# 使用 Hugging Face 模型创建一个文本生成管道
llm_pipeline=pipeline(
    "text-generation",
    model="gpt2",  # 你可以用其他模型替换它，例如 "mistralai/Mistral-7B-v0.1"
    device=0if"cuda"in [str(x) forxinpipeline.available_devices] else-1,  # 如果可用，则使用 GPU
    max_new_tokens=200  # 控制响应长度
)

# 将管道包装在 LangChain 的接口中
llm=HuggingFacePipeline(pipeline=llm_pipeline)

print("Language model loaded successfully!")  # 语言模型加载成功！

6、提示模板设计

RAG系统的输出质量很大程度上取决于提示模板的设计。以下是针对问答任务的专业提示模板：

# filepath: example.py
# 定义一个用于问答的提示模板
prompt_template="""
Answer the question based only on the following context:

Context:
{context}

Question: {query}

Helpful Answer:"""

prompt=PromptTemplate(
    input_variables=["query", "context"],
    template=prompt_template
)

print("Prompt template created!")  # 提示模板已创建！

7、RAG流程集成

将所有组件连接起来，构建完整的RAG处理流程：

# filepath: example.py
# 创建一个结合了检索器和语言模型的链
retrieval_qa=RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # "stuff" 只是将所有检索到的文档放入提示中
    retriever=retriever,
    return_source_documents=True,  # 在响应中包含源文档
    chain_type_kwargs={"prompt": prompt}  # 使用我们的自定义提示
)

print("RAG pipeline assembled and ready to use!")  # RAG 管道已组装好并可以使用！

8、系统测试与应用

通过针对亚洲主题的问题测试RAG系统的表现：

# filepath: example.py
# 帮助清晰显示响应的函数
defask_question(question):
    print(f"Question: {question}\n")

    # 从我们的 RAG 系统获取响应
    result=retrieval_qa({"query": question})

    print("Answer:")  # 回答：
    print(result["result"])

    print("\nSources:")  # 来源：
    fori, docinenumerate(result["source_documents"]):
        print(f"Source {i+1}: {doc.metadata.get('source', 'Unknown')}")  # 来源 {i+1}: {doc.metadata.get('source', 'Unknown')}

    print("\n"+"-"*50+"\n")

# 尝试一些问题
ask_question("What are some popular dishes in Japanese cuisine?")
ask_question("What is Vietnam known for?")
ask_question("Which countries in Asia are worth visiting?")

基础系统已经完成了，我们还可以在多方面进行优化空间

系统优化策略

1、高性能语言模型应用

虽然GPT-2适用于演示目的，但在生产环境中应考虑使用更强大的模型以提升响应质量：

# filepath: example.py
# 使用更强大的模型的示例
llm_pipeline=pipeline(
    "text-generation",
    model="mistralai/Mistral-7B-v0.1",  # 更强大的开源模型
    device=0,
    max_new_tokens=300
)

2、检索策略优化

可通过多种技术优化默认的相似性搜索机制：

# filepath: example.py
# 创建一个带有 MMR（最大边际相关性）的检索器
# 这有助于确保检索到的文档的多样性
retriever=vectorstore.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 5, "fetch_k": 10, "lambda_mult": 0.5}
)

# 或者尝试混合搜索（结合语义和关键词搜索）
fromlangchain.retrieversimportContextualCompressionRetriever
fromlangchain.retrievers.document_compressorsimportLLMChainExtractor

# 创建一个压缩器，仅提取文档的相关部分
compressor=LLMChainExtractor.from_llm(llm)

# 创建一个压缩检索器
compression_retriever=ContextualCompressionRetriever(
    base_retriever=retriever,
    base_compressor=compressor
)

3、文档分块策略优化

文档分块方式对检索质量有重大影响：

# filepath: example.py
# 尝试不同的分块策略
fromlangchain.text_splitterimportRecursiveCharacterTextSplitter

text_splitter=RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    separators=["\n\n", "\n", ". ", " ", ""]  # 尝试在段落/句子边界处分割
)