【LangChain系列】9. 实用技巧：大模型的流式输出在 OpenAI 和 LangChain 中的使用

最新推荐文章于 2025-10-03 00:08:00 发布

原创

最新推荐文章于 2025-10-03 00:08:00 发布 · 2.3k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #数据库 #redis #人工智能 #chatgpt #产品经理

当大模型的返回文字非常多时，返回完整的结果会耗费比较长的时间。如果等待大模型形成完整的答案再展示给用户，明显会给用户不好的体验。所以，现在市面上大多数的AI应用，在给用户结果时，都是以流式输出的方式展示给用户的。所谓的流式输出，就是类似打字机式的方式，一个字或一个词的输出，给用户一种答案逐渐出现的动画效果。

今天我们来学习下如何流式输出大模型的返回结果。本文将涵盖 LangChain 的流式输出方式和 OpenAI 原生的流式输出方式。
在这里插入图片描述

0. LangChain的流式输出 Streaming

0.1 实现流式输出

我们在【AI大模型应用开发】【LangChain系列】实战案例4：再战RAG问答，提取在线网页数据，并返回生成答案的来源代码的基础上，增加流式输出。

原代码：

python代码解读复制代码import bs4
from langchain import hub
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Load, chunk and index the contents of the blog.
loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("post-content", "post-title", "post-header")
        )
    ),
)
docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)
vectorstore = Chroma.from_documents(documents=splits, embedding=OpenAIEmbeddings())

# Retrieve and generate using the relevant snippets of the blog.
retriever = vectorstore.as_retriever()
prompt = hub.pull("rlm/rag-prompt")
llm = ChatOpenAI(model_name=<

最低0.47元/天解锁文章