【大模型】更强的 ChatGLM3-6B 来了,开源可商用

在这里插入图片描述

简介

ChatGLM3-6B

ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:

  1. 更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的预训练模型中最强的性能
  2. 更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
  3. 更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用

环境配置

环境搭建

具体搭建过程参考:
【AI实战】最强开源 6B 中文大语言模型ChatGLM3-6B,从零开始搭建
- ChatGLM2-6B 搭建

安装依赖

pip install protobuf transformers==4.30.2 cpm_kernels torch>=2.0 gradio mdtex2html sentencepiece accelerate

代码及模型权重拉取

拉取 ChatGLM3-6B

git clone https://github.com/THUDM/ChatGLM3-6B

github网站偶尔会抽风,需要耐心等待,如果失败了,再重新拉取

拉取 ChatGLM3-6B 模型权重及代码

cd ChatGLM3-6B
git clone https://huggingface.co/THUDM/chatglm3-6b

由于权重文件特别大,如果失败了,执行 rm -rfi ChatGLM3-6B,再重新拉取。

查看文件列表:

ls -l ChatGLM3-6B

输出:

.gitattributes  1.52 kB
MODEL_LICENSE   4.13 kB
README.md   9.04 kB
config.json 1.25 kB
configuration_chatglm.py    2.31 kB
modeling_chatglm.py 51.5 kB
pytorch_model-00001-of-00007.bin    1.83 GB
pytorch_model-00002-of-00007.bin    1.97 GB
pytorch_model-00003-of-00007.bin    1.93 GB
pytorch_model-00004-of-00007.bin    1.82 GB
pytorch_model-00005-of-00007.bin    1.97 GB
pytorch_model-00006-of-00007.bin    1.93 GB
pytorch_model-00007-of-00007.bin    1.05 GB
pytorch_model.bin.index.json    20.4 kB
quantization.py 14.7 kB
tokenization_chatglm.py 10.1 kB
tokenizer.model 1.02 MB
tokenizer_config.json   

终端测试

进入python环境:

python3

输入代码:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("./ChatGLM3-6B", trust_remote_code=True)
model = AutoModel.from_pretrained("./ChatGLM3-6B", trust_remote_code=True).half().cuda()
model = model.eval()
response, history = model.chat(tokenizer, "你好", history=[])
print(response)
response, history = model.chat(tokenizer, "晚上睡不着应该怎么办", history=history)
print(response)

输出:

晚上睡不着可能会让你感到焦虑或不舒服,但以下是一些可以帮助你入睡的方法:

1. 制定规律的睡眠时间表:保持规律的睡眠时间表可以帮助你建立健康的睡眠习惯,使你更容易入睡。尽量在每天的相同时间上床,并在同一时间起床。
2. 创造一个舒适的睡眠环境:确保睡眠环境舒适,安静,黑暗且温度适宜。可以使用舒适的床上用品,并保持房间通风。
3. 放松身心:在睡前做些放松的活动,例如泡个热水澡,听些轻柔的音乐,阅读一些有趣的书籍等,有助于缓解紧张和焦虑,使你更容易入睡。
4. 避免饮用含有咖啡因的饮料:咖啡因是一种刺激性物质,会影响你的睡眠质量。尽量避免在睡前饮用含有咖啡因的饮料,例如咖啡,茶和可乐。
5. 避免在床上做与睡眠无关的事情:在床上做些与睡眠无关的事情,例如看电影,玩游戏或工作等,可能会干扰你的睡眠。
6. 尝试呼吸技巧:深呼吸是一种放松技巧,可以帮助你缓解紧张和焦虑,使你更容易入睡。试着慢慢吸气,保持几秒钟,然后缓慢呼气。

如果这些方法无法帮助你入睡,你可以考虑咨询医生或睡眠专家,寻求进一步的建议。

网页测试

使用 gradio 搭建页面

安装 gradio

pip install gradio   -i https://pypi.tuna.tsinghua.edu.cn/simple

加载模型并启动服务

修改模型路径;

vi web_demo.py

到6,7行:

tokenizer = AutoTokenizer.from_pretrained("THUDM/ChatGLM3-6B", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/ChatGLM3-6B", trust_remote_code=True).cuda()

修改为:

tokenizer = AutoTokenizer.from_pretrained("./ChatGLM3-6B", trust_remote_code=True)
model = AutoModel.from_pretrained("./ChatGLM3-6B", trust_remote_code=True).cuda()

开启服务:

python web_demo.py

测试地址:

http://10.192.x.x:7860/

参考

  1. https://github.com/THUDM/ChatGLM3-6B
  2. https://huggingface.co/THUDM/ChatGLM2-6B
  3. https://huggingface.co/THUDM/ChatGLM3-6B
  4. https://github.com/THUDM/GLM
<think>好的,我现在需要回答用户关于ChatGLM2-6B-32K模型源码的问题。首先,用户可能想了解这个模型的结构和源码构成,但具体的源码可能没有公开,所以我要先确认这一点。 首先,ChatGLM2-6B-32K是智谱AI和清华KEG实验室开发的,基于GLM架构。之前的版本ChatGLM-6B是开源的,所以可能用户认为这个版本也是开源的。但需要核实最新情况,可能用户混淆了不同版本,比如是否32K指的是上下文长度扩展。 接下来,我需要考虑用户的需求。用户可能想了解如何实现类似模型,或者源码的结构。如果源码未公开,可以介绍其技术要点,比如32K上下文窗口的实现方法,如位置编码改进,比如ALiBi或窗口注意力等。 另外,可能需要解释模型结构,比如GLM使用的自回归填空框架,结合了BERT和GPT的优点。可以提到旋转位置编码(RoPE)或者ALiBi来处理长文本。同时,模型的训练方法,比如预训练和指令微调,以及多阶段训练过程。 如果用户想获取源码,可能需要引导他们到官方仓库,比如GitHub上的ChatGLM-6B项目,并说明32K版本是否有公开代码。若没有,可以建议参考相关论文或技术报告,了解实现细节。 还要注意用户可能对模型的应用或二次开发感兴趣,所以需要介绍如何基于现有代码进行扩展,比如修改位置编码参数来支持长序列,或者使用FlashAttention优化计算效率。 最后,确保回答结构清晰,分点说明源码结构、关键技术、如何获取或参考信息,以及可能的扩展方法。同时提醒用户遵守开源协议,注意可能的许可限制。</think>ChatGLM2-6B-32K 是智谱AI与清华大学KEG实验室联合开发的对话模型,其源码目前未完全公开。不过基于开源社区信息和技术报告,以下从系统实现角度分层解析其关键技术: --- ### 一、源码架构(推测) 若参考其前代开源版本 `ChatGLM-6B`,核心代码可能包含以下模块: 1. **模型主体结构** ```python class ChatGLMModel(nn.Module): def __init__(self, config: ChatGLMConfig): self.embedding = Embedding(config) # 词嵌入层 self.rotary_pos_emb = RotaryEmbedding() # 旋转位置编码 self.layers = nn.ModuleList([GLMBlock(config) for _ in range(config.num_layers)]) self.output_layer = Linear(...) # 输出投影 ``` 核心组件为多层 `GLMBlock`,每层包含自注意力与FFN结构。 2. **位置编码改进** 32K长上下文依赖 **位置编码优化**,可能采用: - **ALiBi(Attention with Linear Biases)**:通过偏置矩阵缓解长程衰减 - **窗口注意力**:局部注意力与稀疏化结合 - 动态NTK扩展RoPE:调整旋转基频适应长序列 --- ### 二、关键技术实现 1. **长上下文支持** - **FlashAttention优化**:通过GPU显存计算优化,降低长序列注意力计算复杂度 - **梯度检查点**:节省显存以支持大batch size - 关键代码段(参考类似实现): ```python def forward(self, hidden_states, attention_mask): # 使用FlashAttention实现 attention_output = flash_attention(q, k, v, attention_mask) ``` 2. **训练策略** - **多阶段训练**:通用预训练 → 长文本微调 → 指令微调 - **数据构造**:混合短对话与长文档(如32K token的书籍摘要) --- ### 三、如何获取参考信息 1. **官方资源** - GitHub仓库(基础版):[THUDM/ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B) - 技术报告:[《GLM-130B: An Open Bilingual Pre-trained Model》](https://arxiv.org/abs/2210.02414) 2. **扩展实现建议** - 若需自定义长上下文模型,可尝试: ```python # 修改RoPE的base频率(NTK-aware扩展) config.rope_theta = 1000000 # 原始值通常为10000 ``` - 使用 `torch.nn.MultiheadAttention` 的 `attn_mask` 实现局部注意力 --- ### 四、注意事项 - **协议限制**:原始代码若基于非商用协议,需遵守相关限制 - **硬件要求**:32K上下文需要约48GB显存(需量化或优化技术) 建议持续关注官方新以获取最新实现细节。如需深入定制,可结合Megatron-LM或DeepSpeed等框架进行分布式训练优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

szZack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值