LangChain 框架基础详解：从入门到实战

在近几年，随着大规模语言模型（LLM, Large Language Model）如 GPT‑4、Gemini 等的迅速普及，开发者不仅在实验环境中探索这些模型，更希望将其应用到实际的业务系统中：例如问答机器人、摘要系统、智能助理、代码自动化、文档分析等。传统的“模型调用 → 返回答案”流程虽然可行，但在面对复杂业务场景（如检索外部数据、调用工具、多步推理、记忆上下文、人机互动等）时，开发成本、集成复杂度、可维护性、可扩展性都会显著提升。

在这种背景下，LangChain 应运而生。由 Harrison Chase 于 2022 年10 月发起开源项目。维基百科+3pinecone.io+3LangChain+3 LangChain 的目标是：为开发者提供一个 模块化、可扩展、与各种 LLM／数据源／工具集成友好 的框架，让开发者能够更快、更系统地构建基于语言模型的应用。IBM 的分析指出：LangChain 是一个“通用接口”，可将几乎任何 LLM 与外部数据源、软件工作流结合起来。IBM 此外，AWS 的介绍也强调，使用 LangChain 可以让组织在不必重新训练模型的情况下，通过“检索增强生成”（RAG）技术、提示工程与数据接入来提升模型在特定领域的准确性。Amazon Web Services, Inc.

简而言之，LangChain 填补了「语言模型能力强大，但将其应用于业务系统复杂、开发成本高」这一空白。对你目前在机器视觉／机器人系统（如此处你的实习项目背景）中结合语言模型、视觉或识别任务，这样的框架能帮助你更快将语言模型能力与视觉/机器人任务接合起来。

2. 为什么需要 LangChain？价值何在

从工程和产品角度来看，使用语言模型直接调用虽然能快速上线原型，但容易遇到以下挑战：

上下文管理困难：对话系统中，模型需要记忆历史、理解上下文变化，单次调用模型往往无法应对多步对话、状态保持。
工具与外部数据集成难：很多场景中，语言模型除了生成文本，还需访问外部数据（如数据库、知识库、文件）、调用工具（如搜索引擎、计算器、API）等。直接封装这些逻辑，容易混乱、难扩展。
提示工程量大且重复：开发者为不同任务需要撰写或调整大量 prompt，缺乏系统化管理。
业务逻辑与模型逻辑耦合严重：如果把业务流程直接硬编码在 prompt 或脚本里，后续扩展、切换模型、迁移数据源时困难。
生产化难度高：从开发环境向生产环境迁移，涉及监控、评估、日志、模型替换、版本管理等，而非仅仅「调用模型」那么简单。

LangChain 的价值就在于：

它提供了统一、模块化的抽象，使开发者可以像搭积木一样组合、复用组件，例如 “Prompt 模板”“链 (Chain)”“记忆 (Memory)” “工具 (Tool)” 等。
它使得模型更易于接入外部数据源、构建检索机制，从而提升生成的准确性与上下文相关性。 Amazon Web Services, Inc.+2nanonets.com+2
它降低了开发者切换不同 LLM 服务商／模型版本的难度，因为 LangChain 提供了标准接口。 IBM+1
它推动语言模型系统从原型走向生产，通过支持状态管理、工具调用、多步流程、以及监控与评估组件（如 LangSmith）等。 js.langchain.com+1

对你而言，作为一个 AI 算法工程师，且正在参与如“物体识别／颜色识别／人姿态检测／垃圾识别”这类视觉任务，如果你想加入语言模型部分（比如解释识别结果、控制策略、对话交互、任务分配等），那么采用 LangChain 可以帮助你把语言能力模块化地集成进整个机器人系统，更容易管理逻辑、拓展新功能（如让机器人“用语言”解释做的事情、根据识别结果生成指令、与用户交互等）。

3. LangChain 的核心架构与模块

为了系统理解 LangChain，我们先来看其整体架构。从官方文档可见，LangChain 的 Python 版本官网明确指出：LangChain 是用于 “构建由大型语言模型驱动的应用” 的框架。LangChain
而其“概念指南”中也列出了其关键模块：聊天模型 (Chat models)、消息 (Messages)、工具 (Tools)、记忆 (Memory)、多模态 (Multimodality)、Runnable 接口、流 (Streaming)、LangChain Expression Language (LCEL) 等。LangChain
下面是一个简化的架构视图（文字说明）：

LLM 接口层：负责与各种大语言模型（如 OpenAI 的 GPT 系列、Hugging Face 推理接口、Anthropic、Google 等）进行对接。开发者通过统一的接口调用不同模型。
提示与模板层 (Prompt Template)：定义输入给模型的提示结构、变量、格式，以便优化模型输出。
链 (Chain) 层：多个动作（模型调用、数据处理、工具调用等）按顺序或逻辑组成一个工作流。Chain 可以是“简单链”（单次模型调用）或“多步链”。GeeksforGeeks+1
智能体 (Agent) 层：Agent 利用模型来决定下一步执行什么动作（比如调用搜索、调用工具、再次生成等）。相比于简单链，Agent 增强了“思考‐执行”能力。Medium+1
记忆 (Memory) 层：为了实现多轮对话或任务状态保持，Memory 模块可保存历史对话、变量、上下文等，并在后续调用中使用。 Medium+1
数据检索／向量存储层 (Retrieval / Vector Store)：用于实现检索增强生成 (RAG) 场景：将知识库、文档、历史对话等数据嵌入（embedding）后存储、检索，以便在模型提示时提供上下文。 nanonets.com+1
工具 (Tool) 与集成层：支持将外部系统（如搜索引擎、数据库、API、计算器、文件解析等）作为“工具”由 Agent 调用。 Medium+1
部署／监控／评估层：在生产环境中，需要考虑监控、日志、评估、模型替换、性能指标等。LangChain 提供如 LangSmith 等工具支持。js.langchain.com

模块化与可扩展性的体现

LangChain 的包组织结构（以 Python 版本为例）包括：langchain-core 提供基础抽象、各个模型／服务提供商的集成包（如 langchain-openai、langchain-anthropic 等）、主包 langchain 提供 Chains、Agents、Retrieval 等。LangChain
因为抽象层次清晰，开发者可以在不改变业务逻辑的前提下切换底层模型（如从 OpenAI GPT 切换到 Hugging Face 模型）或切换检索数据库。
对于你的项目背景，比如将视觉识别模块与语言模块结合，你可以将视觉结果作为“数据源”输入检索模块或 Chain 层，再由语言模型生成解释、任务指令、交互格式等，从而实现模块化结合。

4. LangChain 的关键组件详解

LangChain 的强大在于它将构建 LLM 应用所需的各个核心环节模块化。只要掌握以下核心组件，你就能组合出几乎任何类型的 AI 应用。

4.1 LLM（Large Language Model）接口

LangChain 的第一层就是 模型接口。它为各种主流 LLM 提供统一的封装，使开发者可以无缝切换不同模型，而不改动上层逻辑。

支持的主流模型

OpenAI / Azure OpenAI：最常用的 GPT 系列。
Anthropic Claude：擅长安全对话与复杂推理。
Google Gemini（原 Bard）。
Cohere、AI21、Mistral、Ollama、本地 Hugging Face 模型。

基本使用示例（Python）

from langchain_openai import ChatOpenAI

# 初始化模型
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.7)

# 简单调用
response = llm.invoke("介绍一下LangChain框架的核心模块")
print(response.content)

LangChain 通过这种统一的调用接口屏蔽了底层 API 差异，让开发者可以在项目中轻松切换不同模型。

4.2 Prompt 模板

Prompt（提示）是语言模型工作的起点。
LangChain 提供 PromptTemplate 类来标准化 prompt 结构、插入变量、统一管理。

from langchain.prompts import PromptTemplate

template = """
你是一个专业的AI导师，请用通俗的语言解释以下概念：
{concept}
"""
prompt = PromptTemplate(template=template, input_variables=["concept"])

# 渲染具体输入
final_prompt = prompt.format(concept="LangChain 中的 Agent 是什么？")
print(final_prompt)

from langchain.prompts import PromptTemplate

template = """
你是一个专业的AI导师，请用通俗的语言解释以下概念：
{concept}
"""
prompt = PromptTemplate(template=template, input_variables=["concept"])

# 渲染具体输入
final_prompt = prompt.format(concept="LangChain 中的 Agent 是什么？")
print(final_prompt)

优点

复用性强：模板与逻辑分离，可统一管理。
可维护性高：方便调优 prompt 而不改业务逻辑。
与链 (Chain) 结合自然：模板输出可直接作为模型输入。

4.3 Chain（链）

Chain 是 LangChain 的核心抽象之一。它表示一个由若干步骤顺序执行的工作流，每一步可以是模型调用、工具执行或函数运算。

LangChain 内置多种 Chain 类型：

LLMChain：最基础的 prompt + 模型调用链。
SequentialChain：多个 Chain 串联。
RouterChain：根据输入动态选择不同 Chain。
RetrievalQAChain：结合检索增强生成的问答链。

示例：简单 LLMChain

from langchain.chains import LLMChain
from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate

llm = ChatOpenAI(model="gpt-4o-mini")
prompt = PromptTemplate.from_template("用三句话解释{topic}")
chain = LLMChain(llm=llm, prompt=prompt)

result = chain.invoke({"topic": "LangChain 的优势"})
print(result["text"])

示例：多步 SequentialChain

from langchain.chains import SimpleSequentialChain

chain1 = LLMChain(llm=llm, prompt=PromptTemplate.from_template("概述{topic}的关键点"))
chain2 = LLMChain(llm=llm, prompt=PromptTemplate.from_template("将以下要点扩写成一篇博客文章：{text}"))

overall_chain = SimpleSequentialChain(chains=[chain1, chain2])
print(overall_chain.invoke("LangChain 框架"))

应用场景

报告生成、多阶段问答。
数据预处理 → 模型推理 → 文本输出等多步流程。
将视觉识别结果（例如机器人识别的物体类别）传入 Chain，生成语言说明或控制指令。

4.4 Agent（智能体）

Agent 是 LangChain 中最具“智能”的部分。
与 Chain 不同，Agent 不只是按固定流程执行，而是能基于模型推理动态决定下一步动作。

原理概述

Agent 会先调用 LLM 生成 “思考” （如 “我需要查询工具 X ”），然后自动调用对应工具，再根据结果决定后续步骤。

示例：内置工具 + Agent

from langchain.agents import initialize_agent, load_tools
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")
tools = load_tools(["serpapi", "llm-math"], llm=llm)
agent = initialize_agent(tools, llm, agent_type="zero-shot-react-description", verbose=True)

agent.invoke("搜索今天北京天气并计算明天温度升高2度后的结果")

应用

智能问答助手：自动决定何时检索、何时生成。
数据分析 AI：结合 Python 工具自动绘图、计算。
机器人控制：根据感知结果动态选择执行动作（如“看到红色垃圾→调用清理指令”）。

4.5 Memory（记忆）

Memory 模块允许 Chain 或 Agent 保存历史上下文，实现多轮对话或状态追踪。

类型

ConversationBufferMemory：保存完整对话。
ConversationSummaryMemory：仅保存摘要，节省 token。
ConversationBufferWindowMemory：只保留最近 N 轮。

示例

from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationChain
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")
memory = ConversationBufferMemory()
conv = ConversationChain(llm=llm, memory=memory)

conv.invoke("你好，我是AI算法工程师。")
resp = conv.invoke("请记住我刚才说的话。你能告诉我我的职业吗？")
print(resp["response"])

作用

对话机器人：记住用户历史。
项目状态管理：让 Agent 记得任务上下文。
机器人控制中保存感知状态。

4.6 检索增强生成（RAG）与向量存储

RAG （Retrieval-Augmented Generation）是一种将外部知识与 LLM 结合的常见方式。LangChain 内置多种向量数据库集成，如 FAISS、Chroma、Pinecone、Weaviate 等。

流程

将文档 Embedding 向量化并存储。
根据查询 Query 检索最相似片段。
将结果与 prompt 一起输入 LLM 生成最终回答。

示例

from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI
from langchain.docstore.document import Document

# 构造示例文档
docs = [Document(page_content="LangChain 是一个用于构建 LLM 应用的框架。")]

embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(docs, embeddings)
retriever = vectorstore.as_retriever()

qa = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model="gpt-4o-mini"),
    chain_type="stuff",
    retriever=retriever,
)
print(qa.invoke("LangChain 是什么？"))

优点

让 LLM 访问私有知识（如企业文档、健康报告）。
减少“幻觉”问题。
易于扩展到大规模文档搜索。

4.7 工具（Tools）与多模态扩展

LangChain 的 Tools 机制允许 Agent 或 Chain 调用外部功能，如：

Web 搜索（SerpAPI、DuckDuckGo 等）
文件解析（PDF、CSV、Docx 等）
Python 执行环境
图像识别／语音识别模型

你还可以自定义 Tool：

from langchain.tools import Tool

def calc_area(radius: float) -> float:
    return 3.1416 * radius * radius

tool = Tool(
    name="CircleArea",
    func=calc_area,
    description="计算圆的面积"
)
print(tool.run(5))

这意味着你可以轻松地让 LLM 与机器人控制模块、传感器数据、数据库等系统通信。

5. LangChain 应用开发流程实战

接下来我们通过一个完整案例来理解如何把 LangChain 各模块组合起来。这个案例是经典的 “文档问答系统”（Document QA）。它能让用户上传一个文档，系统自动回答文档内容相关的问题。

5.1 环境准备

LangChain 生态目前主要支持 Python 和 JavaScript，其中 Python 版本最为成熟。
安装主要依赖包：

pip install langchain langchain-openai faiss-cpu

若要使用 Chroma 数据库：

pip install langchain-chroma

5.2 任务定义

目标：输入一段公司内部文档，通过 LLM 回答“这份文档讲了什么？”、“有哪些重点？”等问题。

整体流程图

📄 文档输入 → 文本分块 → 向量化存储 → 检索匹配 → 模型回答

5.3 实现步骤

(1) 文档加载与分块

from langchain.text_splitter import RecursiveCharacterTextSplitter

text = """
LangChain 是一个开源框架，用于开发基于大型语言模型的应用程序。
它提供 Prompt 模板、Chain、Agent、Memory、向量存储等核心组件。
"""
splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=20)
docs = splitter.create_documents([text])
print(docs[0].page_content)

(2) 向量化存储

from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS

embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(docs, embeddings)

(3) 构建检索器

retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 2})

(4) 构建问答链

from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI

qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model="gpt-4o-mini"),
    chain_type="stuff",
    retriever=retriever
)

query = "LangChain 框架的主要功能是什么？"
result = qa_chain.invoke({"query": query})
print(result["result"])

输出示例

LangChain 是一个帮助开发者快速构建基于大型语言模型应用的框架，
提供模块化的 Prompt、Chain、Agent、Memory 等工具。

(5) 整体流程总结

通过短短几十行代码，我们实现了一个具备“检索 + 问答”能力的智能文档系统。
同理，你完全可以替换文本来源为 机器人识别日志、体检报告、生产数据等私有内容，构建行业专属 AI 助手。

6. LangChain 常见应用场景

LangChain 的模块化设计，使它在各个行业和场景都能快速落地。以下是几个代表性方向。

6.1 智能聊天机器人

最常见应用之一。
LangChain 结合 LLM + Memory 模块，即可实现多轮对话。

from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory
from langchain_openai import ChatOpenAI

chatbot = ConversationChain(
    llm=ChatOpenAI(model="gpt-4o-mini"),
    memory=ConversationBufferMemory()
)

chatbot.invoke("你好，我叫小智。")
resp = chatbot.invoke("请记住我的名字，下次打招呼时提到我。")
print(resp["response"])

可扩展场景：企业客服、教育辅导、健康咨询、机器人语音交互等。

6.2 文档问答与知识检索

通过 RAG 机制，可以在任何文档或数据库上构建问答系统。
例如企业内部 FAQ 、财报分析、科研论文总结等。

框架结构：

文档加载 → 向量化 → 检索器 → LLM 问答链

6.3 检索增强生成（RAG）系统

LangChain 提供 RetrievalQA、ConversationalRetrievalChain 等组件，
帮助模型结合外部知识生成更精准回答。

在医疗、法律、金融等领域尤为重要，
例如结合体检报告数据库自动解释健康指标。

6.4 代码智能生成与分析

通过 LLM + 工具模块，LangChain 可实现“代码解释器”或“自动代码生成”。
结合 Python 执行环境工具，可以让 Agent 动态执行脚本、分析结果。

6.5 视觉与机器人系统结合

结合你的实习项目背景（DOFBOT SE 机械臂）：
LangChain 可用于在视觉识别结果基础上生成语言描述或任务命令。

例如：

# 假设识别结果为红色物体
color = "红色"

from langchain.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

prompt = PromptTemplate.from_template("机器人识别到一个{color}物体，请生成下一步动作建议。")
llm = ChatOpenAI(model="gpt-4o-mini")
print(llm.invoke(prompt.format(color=color)).content)

输出示例：

“检测到红色物体，可能是可回收垃圾，请抓取并放入红色桶。”

这种自然语言生成 + 控制逻辑结合的方式，极大提高了机器人系统的人机交互能力。

7. 与其他框架的对比

特性	LangChain	LlamaIndex	Haystack	Semantic Kernel
核心定位	通用 LLM 应用框架	文档检索 + RAG	检索问答	微软 AI 工作流
模块化	✅ 高	✅ 中	⚠️ 偏任务化	✅ 高
Agent 机制	✅ 完备	⚠️ 弱	❌	✅
工具生态	丰富	中等	中等	少
社区活跃度	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐⭐
使用难度	适中	低	中	略高

LangChain 的突出优势是：生态完整 + 模块抽象合理 + Agent 系统强大。
因此它成为当前 RAG 与 AI 助手系统的首选开发框架。

8. LangChain 在生产系统中的落地建议

虽然在实验中易用，但真正上生产，需要考虑更全面的因素。

8.1 模型选型

LangChain 支持所有主流 LLM。
建议根据任务需求与预算选择：

场景	模型建议
快速原型	OpenAI GPT-4o Mini / Claude 3 Haiku
私有部署	Llama 3 / Qwen2.5 / Yi-Large
中文任务	Qwen 系列、Baichuan、Yi 系列
多模态	GPT-4o / Gemini 1.5 Pro

LangChain 允许一行代码切换模型，非常方便：

from langchain_community.chat_models import ChatHuggingFace
model = ChatHuggingFace(repo_id="Qwen/Qwen2.5-7B-Instruct")

8.2 数据源接入

对于企业项目，知识来源通常分为：

本地文件系统
向量数据库（FAISS、Chroma、Pinecone）
云端 API 或 SQL 数据库

LangChain 提供统一接口：
DocumentLoaders、TextSplitters、VectorStores。

8.3 安全与监控

LangChain 提供 LangSmith 平台，用于：

链路跟踪与调试
Prompt 与模型性能分析
日志记录与成本评估

建议所有生产系统接入 LangSmith 或自建日志分析系统。

8.4 性能与成本优化

使用 ConversationSummaryMemory 节省 Token。
对检索文本先摘要、后拼接，减少上下文长度。
结合本地模型与云模型分层调用：
“简单任务 → 本地 LLM，复杂任务 → 云端 GPT”。

9. 案例分析

我们以一个“企业知识问答系统”为例，展示从零构建到部署的完整流程。

9.1 需求

企业希望员工可直接向系统提问，如：“公司年假政策是什么？”
系统自动检索内部文档并回答。

9.2 架构设计

用户提问 → LangChain Agent → 检索公司文档 → LLM 生成回答 → 返回结果

9.3 技术实现

文档加载：DirectoryLoader
向量化存储：Chroma
检索：VectorStoreRetriever
问答：RetrievalQA
记忆：ConversationBufferMemory

9.4 代码核心片段

from langchain_community.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory

# 加载内部文档
loader = DirectoryLoader("company_docs", glob="*.txt")
docs = loader.load()

# 分块
splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=100)
texts = splitter.split_documents(docs)

# 向量化
db = Chroma.from_documents(texts, OpenAIEmbeddings())

# 检索 + 问答
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(
    llm=ChatOpenAI(model="gpt-4o-mini"),
    retriever=db.as_retriever(),
    memory=memory
)

# 多轮对话
print(qa.invoke({"question": "公司年假政策是什么？"})["answer"])