ChatGLM作为一个小参数模型,给予了我们在本地部署LLM的条件,接下来我将展示如何使用python对本地部署的ChatGLM模型进行API调用
对于如何部署本地ChatGLM模型我们可以访问本地化部署大语言模型 ChatGLM
接下来我首先分享api调用的测试代码:
import time
import requests
# 测试GPU运行是否成功
def test_function_1():
import torch
print(torch.cuda.is_available())
# 测试成功
# 测试api相应是否无误
def test_function_2():
# 发送POST请求
url = "http://localhost:8000" # API的地址
data = {
"prompt": "What is your name?",
"history": [], # 历史对话,如果有的话,这里初始化为一个空列表
"max_length": 2048, # 最大生成长度
"top_p": 0.7, # Top-p采样参数
"temperature": 0.95 # 温度参数
}
response = requests.post(url, json=data)
# 解析响应
if response.status_code == 200:
answer = response.json()
print("Response:", answer["response"])
print("History:", answer["histor

本文介绍如何在本地部署ChatGLM模型并使用Python进行API调用,包括测试GPU运行、API响应测试,以及在遇到防火墙问题时的解决方案,如配置Windows防火墙规则以确保请求通过。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



