GLM-4-9B-Chat模型的安装与使用教程

最新推荐文章于 2025-01-08 11:12:50 发布

苏杏或Ernest

最新推荐文章于 2025-01-08 11:12:50 发布

阅读量1.2k

点赞数 24

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_02749/article/details/144421250

GLM-4-9B-Chat模型的安装与使用教程

glm-4-9b-chat 项目地址: https://gitcode.com/hf_mirrors/ai-gitcode/glm-4-9b-chat

引言

在当今人工智能技术飞速发展的背景下，自然语言处理模型在各个领域发挥着越来越重要的作用。GLM-4-9B-Chat作为智谱AI最新一代预训练模型的开源版本，具备多轮对话、网页浏览、代码执行、自定义工具调用和长文本推理等高级功能。本教程旨在帮助您快速了解GLM-4-9B-Chat模型的安装与使用，让您能够轻松驾驭这款强大的AI工具。

安装前准备

系统和硬件要求

操作系统：Linux、Windows或macOS
硬件：CPU（支持AVX2指令集）或GPU（NVIDIA显卡）
内存：至少16GB，推荐32GB以上

必备软件和依赖项

Python 3.8以上版本
PyTorch 1.10.0以上版本（GPU版本需要安装CUDA对应版本）
transformers库（版本>=4.44.0）
vLLM库（若需使用vLLM后端进行推理）

安装步骤

下载模型资源

您可以从Hugging Face模型库中下载GLM-4-9B-Chat模型，地址为：https://huggingface.co/THUDM/glm-4-9b-chat

安装过程详解

安装Python、PyTorch和transformers库：
- Python安装：请根据您的操作系统，从Python官网下载并安装Python 3.8以上版本。
- PyTorch安装：请访问PyTorch官网（https://pytorch.org/），根据您的系统和硬件配置选择合适的版本进行安装。
- transformers安装：在终端或命令提示符中运行以下命令：
```
pip install transformers==4.44.0
```
安装vLLM库（可选）：
```
pip install vllm
```
下载GLM-4-9B-Chat模型：
- 在终端或命令提示符中运行以下命令：
```
transformers-cli download --model THUDM/glm-4-9b-chat
```

基本使用方法

加载模型

使用transformers后端进行加载：

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"  # 根据您的硬件配置选择 "cpu" 或 "cuda"
tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("THUDM/glm-4-9b-chat", torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, trust_remote_code=True).to(device).eval()

使用vLLM后端进行加载：

from transformers import AutoTokenizer
from vllm import LLM
max_model_len, tp_size = 131072, 1  # 根据您的硬件配置选择合适的参数
tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
llm = LLM(
    model="THUDM/glm-4-9b-chat",
    tensor_parallel_size=tp_size,
    max_model_len=max_model_len,
    trust_remote_code=True,
    enforce_eager=True
)

简单示例演示

使用transformers后端进行推理：

query = "你好"
inputs = tokenizer.apply_chat_template([{"role": "user", "content": query}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True)
inputs = inputs.to(device)
gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

使用vLLM后端进行推理：

prompt = [{"role": "user", "content": "你好"}]
stop_token_ids = [151329, 151336, 151338]
sampling_params = SamplingParams(temperature=0.95, max_tokens=1024, stop_token_ids=stop_token_ids)
inputs = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
outputs = llm.generate(prompts=inputs, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)