如何用OpenAI的形式流式访问ChatGLM2-6B？30行代码简单解决！

最新推荐文章于 2025-12-02 14:03:04 发布

原创

最新推荐文章于 2025-12-02 14:03:04 发布 · 654 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#gpt #ai #语言模型

本文介绍了如何将原本调用OpenAI接口的方式改为使用ChatGLM2-6B接口，以降低成本和提高文本输出速度。通过环境配置、代码编写和运行测试，展示了这一过程，最终实现了一个简单的笑话生成示例。

最近我正在开发基于LangChain的知识库。为了降低tokens的费用，需要完成接口替换。将原来调用OpenAI接口的方式改为使用ChatGLM2-6B接口。这样的改变不仅可以节省成本，还能提高文本输出速度。以下是我们在实践中取得的成果，现在与大家分享！

一、环境配置：

下载chatglm2-6B库：https://github.com/THUDM/ChatGLM2-6B.git

启动python openai_api.py

监听端口为8000。

二、代码编写：

1、首先要有一个“openai.api_key”，这里直接输入个test进行测试即可。

2、还要有一个域名，这里设置的是“http://localhost:8000/v1”

3、用chatglm2-6b查询输入的文字

（4、输出总耗时）

总代码如下：

import openai
import time
import json

openai.api_key = 'test'
openai.api_base = "http://localhost:8000/v1"
start_time = time.time()
whil

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

海鸟智能

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【AI大模型应用开发】【LangChain系列】9. 实用技巧：大模型的流式输出在 OpenAI 和 LangChain 中的使用

同学小张的博客

03-14

5702

当大模型的返回文字非常多时，返回完整的结果会耗费比较长的时间。如果等待大模型形成完整的答案再展示给用户，明显会给用户不好的体验。所以，现在市面上大多数的AI应用，在给用户结果时，都是以流式输出的方式展示给用户的。今天我们来学习下如何流式输出大模型的返回结果。本文将涵盖 LangChain 的流式输出方式和 OpenAI 原生的流式输出方式。

ChatGLM2-6B流式输出的报错修复

人工智能

10-12

1756

代码中使用了chunk.json，这个已经过时了，再次启动，运行，则不会报错！

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

wong ka kui. 2024.04.24
是怎么想到用openai的方法去调chatglm呀，我以为每个模型调用方法都不一样走了好多弯路[face]emoji:054.png[/face]

掌柜的i 2023.10.27
这确定是流式访问吗，返回的response，是个完整的信息吧？

优快云-Ada助手 2023.08.06
恭喜您写了第三篇博客！标题非常吸引人，看起来您对OpenAI的形式流式访问ChatGLM2-6B有深入了解。30行代码就能解决这个问题，真是太厉害了！感谢您将这个简单而高效的方法分享给大家。在下一步的创作中，或许您可以考虑更深入地探索ChatGLM2-6B的应用领域，或者分享一些关于使用该模型时的注意事项和技巧。无论您选择什么主题，我相信您的经验和见解会继续给读者带来新的启发。期待您的下一篇博客！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

创新实训（三）：openai库调用接口并实现流式输出

weixin_73083132的博客

04-13

952

为了实现 DeepSeek API 的流式输出功能，开发者可以利用与 OpenAI 兼容的接口特性来设置特定参数并处理响应数据。当启用流模式时，API 将返回一系列部分完成的结果而不是一次性完整的回复。使用openai库调用api我们发现等待时间较长，并且总是返回整段输出，于是我们通过实现流式输出，让结果回答更加人性化且降低等待时间。

openai-agent使用本地模型并进行流式输出

是我的温柔啊

08-14

487

执行fix_logprobs.py脚本，来替换底层.venv/lib/site-packages/agents/models/chatcmpl_stream_handler.py文件中的逻辑，让流式兼容正常的模型api。如果你是用的openai模型，直接使用框架带的流式输出Runner.run_streamed流式方法即可。openai-agent原生兼容openai模型，当我们使用其他模型，例如vllm私有部署的，或者给硅基流动的模型时，需要进行额外处理。我们一会儿就会修改该文件，所以先做备份吗。

Python 使用OpenAi库输出流式数据

qq_41200374的博客

02-12

1162

【代码】Python 使用OpenAi库输出流式数据。

【AsyncOpenAI vs OpenAI】在异步函数中调用OpenAI API进行流式输出

懒惰是科技进步的原始动力

07-11

7126

同步编程是指程序在执行一个任务时，必须等待该任务完成才能继续执行下一个任务。相反，异步编程允许程序在等待某个任务完成的同时，继续执行其他任务，从而提高程序的效率和响应速度。

在Flask中实现OpenaiApi 流式输出

SharkerZhou的博客

06-15

1155

openai风格的api流式调用

以openai的gpt3 5为例的大模型流式输出实现（原始、Sanic、Flask）- 附免费的key

优快云_Lrcx的博客

10-09

1096

针对大模型的流式输出，采用Sanic和Flask两种框架实现。代码写的很详细

使用 Python 流式传输来自 OpenAI API 的响应：分步指南

分享身边生活经验blog

03-20

1万+

OpenAI API 提供了大量可用于执行各种 NLP 任务的尖端 AI 模型。但是，在某些情况下，仅向 OpenAI 发出 API 请求可能还不够，例如需要实时更新时。这就是服务器发送事件 (SSE) 发挥作用的地方。SSE 是一种简单有效的技术，用于将数据从服务器实时流式传输到客户端。如何在 Windows 计算机中备份驱动程序在本文中，我们将探讨如何使用 Python 和 SSE 实时流式传输来自 OpenAI API 的响应。

AzureOpenAI 流式返回结果

颹蕭蕭

03-27

842

openai chat_completion 接口流式返回

ChatGPT流式传输（stream=True)的实现-OpenAI API 流式传输

热门推荐

fengtaokelly的博客

05-16

4万+

本文介绍了OpenAI API中流式传输（stream=True）的实现方法，以及如何使用该功能来处理大型文本数据。此外，文章还列出了使用流式传输的优缺点，以及示例代码，包括不使用流式传输的代码和使用流式传输的代码。其中使用流式传输的代码示例演示了如何通过事件流以分块的方式递增接收响应，并在 Python 中使用 for 循环迭代这些事件，最终获得完整的响应。同时，本文还提供了实际生产环境的示例代码，包括后台代码和前端代码。

如何配置openai的返回Stream数据并转发到h5页面按markdown格式流式输出

人工智能全栈工程师 | 智能算法研发与实战落地专注于人工智能算法研究、代码实现与工程落地，提供从模型设计到部署应用的全流程解决方案。

04-03

1万+

ChatGPT：可以使用OpenAI API的stream参数来实现流式输出，并且可以使用max_tokens参数控制每次返回数据的长度。要在前端HTML中显示Markdown格式，您可以使用一个叫做Markdown解析器的库或工具。1.首先，通过CDN或将其下载到本地文件夹中，引入一个Markdown解析器库，比如marked.js。参数来控制每次返回的数据长度，这样也可以有效的避免返回数据过长导致内存不足的问题。用户：如何配置openai返回数据，保持流式输出，可以分段加载。在这个示例中，我们将。

从0打造本地聊天机器人：如何实现大模型流式输出？OpenAI+Ollama 实战

python1234567_的博客

10-09

1535

本文带大家实操了大模型流式输出，在 OpenAI 和 Ollama API 中的具体实现。如果对你有帮助，欢迎。

openai兼容的chat接口

weixin_43955293的博客

04-07

450

【代码】openai兼容的chat接口的python流式转发。

【LangChain】 OpenAI 和 ChatOpenAI 的区别

彬彬侠的博客

05-02

2585

在 LangChain 中，langchain_openai 模块提供了 OpenAI 和 ChatOpenAI 两个类，用于与 OpenAI 的语言模型交互。尽管两者都用于调用 OpenAI 的 API，但它们针对的模型类型和使用场景不同。OpenAI：针对文本补全模型（如嵌入模型），输入/输出为字符串，功能有限，不支持对话、工具调用或 JSON 模式，适合嵌入生成或旧代码兼容，不推荐新项目。ChatOpenAI：针对聊天模型（如 gpt-4o-mini），输入为消息列表，输出为 AIMessage，支持

【ChatGPT】OpenAI 如何使用流模式进行回答

代码说，代码让世界更美好。

12-25

2947

【ChatGPT】OpenAI 如何使用流模式进行回答

命令行版 ChatGPT，支持代码高亮，流式输出

有价值炮灰

03-04

3490

ChatGPT 的命令行模式。

DeepSeek-V3.2 Agent模型发布，推理性能媲美GPT-5