【CodeGuide项目】ChatGLM-6B开源双语对话模型部署全指南

富嫱蔷

于 2025-06-03 09:11:15 发布

阅读量219

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00509/article/details/148394052

【CodeGuide项目】ChatGLM-6B开源双语对话模型部署全指南

CodeGuide :books: 本代码库是作者小傅哥多年从事一线互联网 Java 开发的学习历程技术汇总，旨在为大家提供一个清晰详细的学习教程，侧重点更倾向编写Java核心内容。如果本仓库能为您提供帮助，请给予支持(关注、点赞、分享)！项目地址: https://gitcode.com/gh_mirrors/code/CodeGuide

一、ChatGLM-6B模型概述

ChatGLM-6B是清华大学知识工程组（KEG）开源的对话语言模型，基于通用语言模型（GLM）架构开发。作为国内领先的开源对话模型，它具有以下显著特点：

双语能力：同时支持中文和英文对话
轻量级设计：相比千亿参数的大模型，6B参数的规模更适合本地部署
高效推理：支持在消费级显卡上运行（最低6GB显存）
知识丰富：基于大规模中文语料训练，具备较强的中文理解能力

该模型采用了与ChatGPT相似的监督微调技术，在GLM-130B基座模型的基础上进行了优化，使其更符合人类对话习惯。2022年斯坦福大学的大模型评测中，GLM-130B是亚洲唯一入选的大模型，展现了清华团队在自然语言处理领域的强大实力。

二、部署环境要求

硬件配置

| 量化等级 | 最低GPU显存（推理） | 最低GPU显存（微调） | |------------|---------------------|---------------------| | FP16 | 13GB | 14GB | | INT8 | 8GB | 9GB | | INT4 | 6GB | 7GB |

经验建议：

个人开发者：建议使用INT4量化版本，可在RTX 3060等消费级显卡上运行
企业测试环境：推荐使用INT8或FP16版本以获得更好的效果
云服务选择：至少选择16GB内存+8GB显存的云主机配置

软件环境

操作系统：Linux（推荐Ubuntu 20.04+）或macOS 12.3+
Python版本：3.10.8或更高
CUDA版本：11.7+（如需GPU加速）
依赖库：PyTorch 1.13+、transformers 4.27+等

三、详细部署步骤

方法一：本地服务器部署

1. 基础环境配置

# 安装Python 3.10
wget https://www.python.org/ftp/python/3.10.8/Python-3.10.8.tgz
tar -xzf Python-3.10.8.tgz
cd Python-3.10.8
./configure --prefix=/usr/local/python3
make && make install

# 设置软链接
ln -s /usr/local/python3/bin/python3 /usr/bin/python3
ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

# 验证安装
python3 -V
pip3 -V

2. 获取项目代码

git clone https://github.com/THUDM/ChatGLM-6B.git
cd ChatGLM-6B

3. 下载模型文件

建议从清华镜像站下载模型文件（速度更快）：

# 创建模型目录
mkdir -p model/chatglm-6b-int4

# 下载INT4量化模型（约4GB）
wget -P model/chatglm-6b-int4 https://cloud.tsinghua.edu.cn/d/674208019e314311ab5c/files/?p=%2Fchatglm-6b-int4%2Fpytorch_model.bin

4. 安装依赖

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

5. 修改模型路径

编辑web_demo2.py文件，修改模型加载路径：

tokenizer = AutoTokenizer.from_pretrained("model/chatglm-6b-int4", trust_remote_code=True)
model = AutoModel.from_pretrained("model/chatglm-6b-int4", trust_remote_code=True).half().cuda()

6. 启动Web服务

python3 -m streamlit run web_demo2.py --server.port 8000 --server.address 0.0.0.0

访问http://服务器IP:8000即可使用对话界面。

方法二：Docker容器部署

对于希望快速体验的开发者，可以使用Docker方式部署：

1. 准备Dockerfile

FROM nvidia/cuda:11.8.0-cudnn8-devel-ubuntu22.04

# 安装基础依赖
RUN apt-get update && apt-get install -y \
    python3.10 \
    python3-pip \
    git \
    wget

# 克隆项目
RUN git clone https://github.com/THUDM/ChatGLM-6B.git /app
WORKDIR /app

# 安装依赖
RUN pip3 install -r requirements.txt

# 下载模型（建议提前下载好通过volume挂载）
# RUN wget -P model https://cloud.tsinghua.edu.cn/... 

CMD ["python3", "-m", "streamlit", "run", "web_demo2.py"]

2. 构建并运行容器

docker build -t chatglm .
docker run -p 8000:8000 --gpus all -v ./model:/app/model chatglm

四、常见问题解决

CUDA内存不足：
- 尝试使用更小的量化版本（INT4）
- 添加--precision=16参数减少显存占用
- 在代码中添加torch.cuda.empty_cache()

依赖冲突：

pip install --force-reinstall -r requirements.txt

模型加载慢：
- 确保模型文件完整（约4-13GB）
- 检查磁盘IO性能
中文乱码问题：
```
export LANG=zh_CN.UTF-8
```

五、进阶使用建议

API开发：项目内置了API服务，可通过以下命令启动：

python api.py

调用示例：

import requests
response = requests.post("http://localhost:8000", json={
    "prompt": "你好",
    "history": []
})

微调训练：如需在自己的数据集上微调：

python ptuning/train.py \
    --preprocessed_data your_data.json \
    --model_name_or_path model/chatglm-6b-int4

性能监控：使用gpustat监控GPU使用情况：
```
pip install gpustat
gpustat -i 1
```

六、模型效果展示

ChatGLM-6B在多个中文任务上表现出色：

知识问答：

用户：量子计算是什么？
AI：量子计算是利用量子力学原理进行信息处理的新型计算模式...

代码生成：

# 生成快速排序Python实现
def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr)//2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)

文本创作：

请写一首关于春天的诗：

春风吹绿江南岸，
细雨润物细无声。
桃花含笑迎人面，
燕子归来寻旧庭。

通过本指南，开发者可以快速在自己的环境中部署ChatGLM-6B模型，体验先进的中文对话AI能力。该模型特别适合中文场景下的智能客服、教育辅助、内容创作等应用场景。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考