图解 LangChain 本地部署，调试到天亮只为你摆脱API依赖

本文链接：https://blog.youkuaiyun.com/zhishi0000/article/details/146885067

LangChain 就像是一个积木建筑师，可以帮你搭建与大语言模型交互的应用而不必被外部服务束缚。

基本安装

环境准备

# 准备Python虚拟环境
python -m venv langchain-env
source langchain-env/bin/activate  # Linux/Mac
# 或者在Windows上
# langchain-env\Scripts\activate
# 安装LangChain核心包
pip install langchain
# 安装本地模型支持
pip install llama-cpp-python
# 安装向量数据库
pip install chromadb

模型获取

# 下载开源模型
# 确保目录存在
import os
os.makedirs("models", exist_ok=True)
# 使用wget或curl下载（Linux/Mac）
# !wget https://huggingface.co/TheBloke/Llama-2-7B-GGUF/resolve/main/llama-2-7b.Q4_K_M.gguf -O models/llama-2-7b.gguf
# 使用requests下载（跨平台）
import requests
def 下载模型(url, 保存路径):
    response = requests.get(url, stream=True)
    total_size = int(response.headers.get('content-length', 0))
    with open(保存路径, 'wb') as f:
        for chunk in response.iter_content(chunk_size=8192):
            f.write(chunk)
    print(f"模型已下载到: {保存路径}")

本地模型加载

Generated Image

创建LLM对象

# 使用llama-cpp加载本地模型
from langchain.llms import LlamaCpp
# 创建本地LLM实例
llm = LlamaCpp(
    model_path="models/llama-2-7b.gguf",
    temperature=0.7,  # 控制创造性
    max_tokens=1000,  # 最大输出长度
    n_ctx=2048,  # 上下文大小
    verbose=True  # 显示加载进度
)
# 测试简单对话
response = llm("你好，请用Python写一个快速排序算法")
print(response)

创建对话链

# 构建更复杂的对话模式
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory
# 创建带记忆的对话链
memory = ConversationBufferMemory()
conversation = ConversationChain(
    llm=llm,
    memory=memory,
    verbose=True  # 显示中间过程
)
# 进行对话
response = conversation.predict(input="我想学习机器学习，有什么建议？")
print(response)
# 继续对话，模型会记住上下文
follow_up = conversation.predict(input="有哪些适合初学者的项目？")
print(follow_up)

向量存储设置

Generated Image

文档处理

# 加载和处理本地文档
from langchain.document_loaders import TextLoader, DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
# 加载单个文档
loader = TextLoader("./documents/machine_learning.txt")
document = loader.load()
# 加载整个目录
# dir_loader = DirectoryLoader("./documents/", glob="**/*.txt")
# documents = dir_loader.load()
# 文本分割，生成更小的文档块
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,      # 每块大小
    chunk_overlap=200,    # 重叠部分，保证上下文连贯
    length_function=len   # 计算长度的函数
)
docs = text_splitter.split_documents(document)

向量存储

# 设置Embeddings和向量存储
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
# 使用开源embeddings模型
embeddings = HuggingFaceEmbeddings(
    model_name="all-MiniLM-L6-v2",  # 小型但有效的模型
    cache_folder="./models/"         # 本地缓存
)
# 创建向量数据库
db = Chroma.from_documents(
    documents=docs,
    embedding=embeddings,
    persist_directory="./chroma_db"  # 持久化存储
)
# 保存向量数据库到磁盘
db.persist()
# 相似性搜索
query = "机器学习中的过拟合是什么？"
results = db.similarity_search(query, k=3)  # 返回最相似的3个文档

RAG实现

Generated Image

检索问答链

# 完整的RAG实现
from langchain.chains import RetrievalQA
# 创建检索问答链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # stuff方法：将所有文档合并为单个上下文
    retriever=db.as_retriever(
        search_kwargs={"k": 3}  # 检索3个最相关的文档
    ),
    verbose=True
)
# 处理问题
query = "如何解决机器学习中的过拟合问题？"
response = qa_chain.run(query)
print(response)

会话式RAG

# 带记忆的对话式RAG
from langchain.chains import ConversationalRetrievalChain
# 创建会话记忆
memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)
# 创建对话式检索链
conversation_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=db.as_retriever(),
    memory=memory,
    verbose=True
)
# 第一个问题
response = conversation_chain({"question": "什么是深度学习？"})
print(response['answer'])
# 后续问题（模型会记住上下文）
follow_up = conversation_chain({"question": "它与传统机器学习有什么区别？"})
print(follow_up['answer'])

应用部署

简易Web界面

# 使用Gradio创建简单界面
import gradio as gr
def process_query(query, chat_history):
    # 处理用户输入并获取回答
    response = conversation_chain({"question": query})
    answer = response['answer']
    # 更新对话历史
    chat_history.append((query, answer))
    return "", chat_history
# 创建Gradio界面
with gr.Blocks() as demo:
    gr.Markdown("# 本地LLM知识库问答系统")
    chatbot = gr.Chatbot()
    msg = gr.Textbox(label="输入问题")
    clear = gr.Button("清除对话")
    msg.submit(process_query, [msg, chatbot], [msg, chatbot])
    clear.click(lambda: None, None, chatbot, queue=False)
# 启动本地服务
demo.launch(share=False)  # 设置share=True可以获得公开链接

进程管理

# 持久化服务
import subprocess
import atexit
def start_server():
    # 启动独立进程
    server = subprocess.Popen(
        ["python", "app.py"],
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE
    )
    # 程序退出时关闭服务器
    def cleanup():
        server.terminate()
    atexit.register(cleanup)
    return server
if __name__ == "__main__":
    server = start_server()
    print("服务已启动，访问 http://127.0.0.1:7860")