在Win11上部署ChatGLM2-6B详细步骤--（上）准备工作

原创

已于 2023-10-27 22:32:13 修改 · 2.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能

于 2023-10-27 17:47:18 首次发布

清华大学的知识工程和数据挖掘小组开源的ChatGLM-6B对话模型升级至2-6B版本，增强了性能，支持更长上下文和开放协议。文章详细指导了CUDA、显卡驱动、cuDNN和VisualStudio等环境的安装过程。

一：简单介绍

ChatGLM-6B是清华大学知识工程和数据挖掘小组（Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University）发布的一个开源的对话机器人。根据官方介绍，这是一个千亿参数规模的中英文语言模型。并且对中文做了优化。本次开源的版本是其60亿参数的小规模版本，约60亿参数，本地部署仅需要6GB显存（INT4量化级别）。

其中ChatGLM2-6B代码依照Apache-2.0协议开源，ChatGLM2-6B模型的权重的使用则需要遵循Model License。ChatGLM2-6B权重对学术研究完全开放，在填写问卷进行登记后亦允许免费商业使用。

ChatGLM2-6B是开源中英双语对话模型 ChatGLM-6B 的第二代版本在保留了初代对话流畅、部署门槛较低等众多优秀特点之上，引入以下四个新特性：

1、性能更强大，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
2、更长的上下文：基于 FlashAttention 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练。
3、更长的上下文：由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练。
4、更开放的协议：ChatGLM2-6B 权重对学术研究完全开放，在填写问卷进行登记后亦允许免费商业使用。

二：环境准备

1、查看CUDA的版本

打开cmd，执行nvidia-smi