ChatGLM-6B-PT指定gpu微调

原创

已于 2023-04-26 14:44:17 修改 · 4.4k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #python #服务器 #人工智能

于 2023-04-25 20:40:20 首次发布

在4-3090上使用ChatGLM-6B-PT模型进行微调时遇到GPU显存不足的问题，由于其他GPU已被占用。通过修改ds_train_finetune.sh脚本，设置CUDA_VISIBLE_DEVICES=1和--num_gpus=1来指定GPU:1进行训练，但初始尝试未成功。查阅Deepspeed文档后，尝试使用hostfile和--include参数，但因SSH连接问题失败。最终通过删除hostfile和仅使用--include=localhost:1解决了单GPU训练的问题，成功在GPU:1上进行微调。

在4-3090对ChatGLM-6B-PT微调, 由于gpu:0, gpu:2, gpu:3都被占用, 导致微调显存不足

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 23.70 GiB total capacity; 8.87 GiB already allocated; 79.81 MiB free; 8.88 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

只能选择在gpu:1上微调模型, 问题是deepspeed脚本ds_train_finetune.sh默认是全卡跑的, 可以看到运行时提示

[INFO] [launch.py:249:main] Setting CUDA_VISIBLE_DEVICES=0, 1, 2, 3

这是由于ds_train_finetune.sh中, 默认num_gpus=4所有卡全开

LR=1e-4

MASTER_PORT=$(shuf -n 1 -i 10000-65535)

deepspeed --num_gpus=4 --master_port $MASTER_PORT main.py \

省流, 查阅官方文档

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yf1ne

关注关注

15
点赞
踩
32

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【ChatGLM 开发实战】ChatGLM 定制开发: CUDA 模型指定运行的 GPU 设备

AI天才研究院

04-03

5万+

ChatGLM 背后的实现技术主要是自然语言处理(NLP)和深度学习。具体来说，我的实现采用了以下几个技术： 1. 自然语言处理技术：我使用了自然语言处理技术来分析和理解人类提出的问题，并根据问题的语义和语法来生成回答。自然语言处理技术包括词法分析、句法分析、语义分析等等，可以处理和分析语言中的语法和语义结构。 2. 深度学习技术：我使用了深度学习技术来进行模型训练和预测。深度学习是一种机器学习方法，通过使用大量数据和复杂的算法来训练模型，并使其能够自动学习语言的规律和模式。在训练过程中，我使用了卷积神

ChatGLM-6B部署、实战与微调

m0_47867638的博客

06-29

1781

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

qq_41046882 2023.07.28
你好，如何改变gpu的数量呢，我尝试将--num_gpus=1，但是代码的实际运行过程中，还是使用了4个GPU
- 骑猪的胖子ovo回复qq_41046882 2024.03.11
  可能语句位置不对，不可以放在末尾

优快云-Ada助手 2023.04.26
推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python

Chat-GLM 详细部署（GPU显存＞=12GB）

Kaitiren的专栏

04-10

1万+

【代码】Chat-GLM 详细部署（GPU显存>=12GB）

LLM微调三阶段：从PT到RL全解析

最新发布

qq_73235409的博客

09-11

891

本文介绍了大语言模型（LLM）微调的三个关键阶段：预训练（PT）、监督微调（SFT）和强化学习（RL）。PT阶段通过海量无标注数据构建模型的基础语言能力；SFT阶段使用标注数据教会模型执行特定任务；RL阶段则通过奖励机制优化模型的输出质量。文章详细解析了每个阶段的数据要求、训练方法和适用场景，并建议新手从SFT入手，使用开源工具和小模型进行实践。这种"打地基→搭框架→精装修"的三阶段方法，能有效将通用语言模型转化为专业领域的实用工具。

基于ChatGLM2-6B的微调技术分享

weixw99的博客

09-14

1723

微调所用GPU：RTX3090 24GB 实测两种微调所需显存分别为16GB和20GB。数据集不能超过100MB（心存疑惑）？清华提供的广告数据集约52MB有114599条数据，训练约4h。主要工作为基于ChatGLM2-6B的微调理解与实操，主要针对P-TuningV2和Lora微调。对比效果可见jupyter notebook，但指标没有量化。参考代码为ChatGLM2-6B官方教程。其中官方教程仅包含P-TuningV2微调与全量微调（显存要求很高），而且代码封装程度较高，可读性较差。

清华ChatGLM-6B本地GPU推理部署

https://www.zhihu.com/people/mu-zi-zhi-6-28

04-24

3547

是一个开源的、支持中英双语的对话语言模型，基于General Language Model（GLM）架构，具有62亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4量化级别下最低只需6GB显存）。ChatGLM-6B使用了和ChatGPT相似的技术，针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62亿参数的ChatGLM-6B已经能生成相当符合人类偏好的回答。

ChatGLM-6B 部署与 P-Tuning 微调实战-使用Pycharm实战

chengjinpei的博客

07-26

3133

国产大模型Chatglm微调实战

使用P-Tuning v2微调ChatGLM-6B大模型

weixin_44151034的博客

11-27

1069

=我们选择的系统和pytorch版本是：torcheasyrec:0.6.0-pytorch2.5.0-gpu-py311-cu121-ubuntu22.04 ==但是虽然 V100 性能更好，我们测试使用没必要，就选 A10 就可以，A10 显卡每小时消耗6.991计算时，如果不关机持续使用大概可以使用30天。，可以进一步调整一下里面的share参数，让这个变成公共参数的，就是有了url以后，大家都能打开。如果显存和内存清理的很干净，它的回答效果会很好。如果清理的不干净，那么回答的效果会很差。

ChatGLM-6B微调与部署

dzysunshine的博客

05-05

1万+

ChatGPT所展现出的强大能力，足以使许多行业发生翻天覆地的变化，而通过微调及部署较小的模型，在一些垂直领域达到和ChatGPT相近的效果，显得尤为重要。本文从模型参数，中文，微调难度等多角度考虑，选取了ChatGLM-6B模型来进行实验，主要分为3个部分：基于ChatGLM-6B的部署，基于peft框架的LoRA微调ChatGLM-6B，基于P-Tuning v2微调ChatGLM-6B（官方）。

使用Chatglm-6b微调催收问答对的尝试

05-11

1685

10.在gpt容器中启动微调训练，根据数据量不同及GPU大小，有所不同，tesla T4 16 G 30个问答对大概要24小时。max_source_length及max_target_length 可以根据实际情况调整，对应的是输出和输出的长度。per_device_train_batch_size根据GPU大小进行调整，如：1，2，4，8，16等。8. 打开localhost:6006/lab，输入token，这样就可以方便的上传文件，修改代码了。9. 进入ptuning修改训练脚本train.sh。

在训练模型时如何指定具体哪一（多）块GPU显卡进行训练任务

大西瓜不甜的博客

04-16

9797

在用tensorflow深度学习模型训练时，假设我们在训练之前没有指定具体用哪一块GPU进行训练，则默认的是选用第0块GPU来训练我们的模型。如果你的电脑有多块GPU的话，其它几块GPU的也会显示被占用。 &...

ChatGLM-6B实战微调（P-tuning-v2、LORA）

qq_47982709的博客

04-07

1879

LoRA核心思想是在原始预训练语言模型旁边增加一个旁路，做一个降维再升维的操作，来模拟所谓的 intrinsic rank（预训练模型在各类下游任务上泛化的过程其实就是在优化各类任务的公共低维本征（low-dimensional intrinsic）子空间中非常少量的几个自由参数）。在推理时，将左右两部分的结果加到一起即可，h=Wx+ABx=(W+AB)x，所以，只要将训练完成的矩阵乘积AB跟原本的权重矩阵W加到一起作为新权重参数替换原始预训练语言模型的W即可，不会增加额外的计算资源。

显存充足却提示out of memory(allocated memory try setting max_split_size_mb to avoid fragmentation)

睦生

10-28

1万+

在训练模型的过程中，遇到如下问题：显存有一半以上的空间却仍然报out of memory的错误。本文总结网上的相关解决方案，由于这些方案对本问题均无效，本文经过实践提出了一种新的解决方法。

LLM-分布式训练工具（一）：DeepSpeed【微软】【大模型分布式训练工具，实现ZeRO并行训练算法】【zero3配置将模型参数切分后分配到不同的显卡中，突破单张显卡容量不足以加载模型参数的限制】

u013250861的博客

06-10

1万+

DeepSpeed是微软推出的大规模模型分布式训练的工具，主要实现了ZeRO并行训练算法。本文是huggingface的DeepSpeed文档的笔记，做查询和备忘，初次学习建议结合原始文档食用。

指定代码运行的gpu id

wandererXX的博客

01-22

939

【代码】指定代码运行的gpu id。

DeepSpeed使用指南(简略版)