基于 LangChain + 通义千问 + bge-large 中文 Embedding 搭建一个RAG问答示例

原创于 2025-08-03 22:43:56 发布 · 629 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #embedding #easyui

人工智能同时被 2 个专栏收录

26 篇文章

订阅专栏

Agent

1 篇文章

订阅专栏

文章目录

最近我尝试使用LangChain框架结合阿里云的通义千问模型构建了一个简单的RAG（检索增强生成）应用，在这里记录一下实现过程和关键代码解析。

LangChain介绍

LangChain 是一个用于构建基于大型语言模型（LLM）应用程序的流行开源框架。它提供模块化组件和工具链，简化了将 LLM 集成到实际应用中的流程，支持开发问答系统、聊天机器人、自动化代理等场景。其它流行的框架还有LlamaIndex，它可以和LangChain进行结合开发。
LangChain详细文档：https://python.langchain.com/docs/introduction/

RAG简介

RAG是一种将检索与生成相结合的AI应用架构，通过先检索相关知识再生成回答的方式，既能利用大模型的生成能力，又能保证回答的准确性和时效性。主要流程包括：

加载并处理文档数据
将文档向量化并存储
根据用户问题检索相关文档片段
结合检索到的信息生成回答

embedding模型权重下载代码

运行下面的代码即可将embedding模型的权重下载到本地，以供调用。

from modelscope import snapshot_download

model_dir = snapshot_download(
    model_id='BAAI/bge-large-zh-v1.5',
    cache_dir=r'E:\project\agent_learn\RAG_LangChain\model_dir'
)

这里简单介绍下该embedding模型，BAAI/bge-large-zh-v1.5 是由北京智源人工智能研究院（BAAI）开发的中文文本嵌入模型，属于 BGE（BAAI General Embedding）系列模型之一。该模型专注于生成高质量的中文文本向量表示，适用于检索、聚类、语义匹配等自然语言处理任务。这个模型在中文语料库上的效果十分好，如果大家的主要业务是在英文文档领域，可以尝试国外的英文embedding模型，这里就不再详细介绍。

核心代码实现

下面是完整的实现代码：

from operator import itemgetter
from pathlib import Path

from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough, RunnableParallel
from langchain_community.document_loaders import DirectoryLoader, TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_openai import ChatOpenAI
from langchain_chroma import Chroma
import os
from dotenv import load_dotenv

# 加载环境变量
load_dotenv()  # 加载 .env 文件
api_key = os.getenv("QWEN_API_KEY")

# 1. 设置模型
# 使用通义千问模型，通过兼容OpenAI的接口调用
llm = ChatOpenAI(
    model="qwen-max-latest", 
    api_key=api_key, 
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

# 使用本地的BGE中文嵌入模型
embedding_model = HuggingFaceEmbeddings(
    model_name=r"E:\project\agent_learn\RAG_LangChain\model_dir\BAAI\bge-large-zh-v1___5"
)

# 2. 设置数据处理（加载、分块、存储、检索）
file_dir = Path('my_knowledge')
# 滑动窗口分块，块大小500字符，重叠100字符
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
# 使用Chroma作为向量数据库
vector_store = Chroma(embedding_function=embedding_model, persist_directory="./chroma_db")
# 创建检索器，每次检索5个最相关的片段
retriever = vector_store.as_retriever(search_kwargs={"k": 5})

# 定义提示模板
prompt_template = PromptTemplate.from_template("""
请根据以下提供的上下文信息来回答问题。
如果上下文信息不足以回答问题，请直接说“根据提供的信息无法回答”。
如果回答时使用了上下文中的信息。在回答后输出使用了哪些上下文。
上下文信息：
{context}
-------------
问题:{question} """)

# 3. 编排"链"
chain = (
    { "question": RunnablePassthrough()}
    | RunnablePassthrough.assign(context=itemgetter("question") | retriever)
    | prompt_template
    | llm
    | StrOutputParser()
)

if __name__ == '__main__':
    # 4. 初始化知识库（首次运行时取消注释）
    docs = DirectoryLoader(str(file_dir), loader_cls=TextLoader, loader_kwargs={"encoding": "utf-8"}).load()   # 加载文档
    docs = text_splitter.split_documents(docs)   # 切分文档
    vector_store.add_documents(docs)    # 存储文档

    # 测试问题
    print(chain.invoke("韩立是谁"))