Chatglm-6b云服务部署及微调

部署运行你感兴趣的模型镜像

1.云服务器部署

首先是租用一个云服务器,我是在autodl中租用的服务器,租用的是16G的显存,虽然在训练的过程中显存只需要6.7G,但是呢在推理的过程中12G的显存运行不稳定我就直接换成16G的了。我在ChatGLM-6B/ptuning at main · THUDM/ChatGLM-6B · GitHub上下载了模型,但是这个里面并没有包含模型,在这个github中的代码里面的模型是从huggingface中加载的,建议是从huggingface中下载,因为模型的checkpoint挺大的,下载了几次也都失败了。https://huggingface.co/THUDM/chatglm-6b这个是网址,点一下files and versions之后就可以下载了。没错,这里的所有都要下载,下载之后放在一个文件里面。到这一步云部署基本是完成了。之后还要修改一下模型的路径。有两种启动方式(启动原模型)。

1.使用web_demo.py

但是需要修改模型路径,也就是

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()两行代码中的“THUDM/chatglm-6b”这两段代码需要改成自己的模型路径。

2.cli_demo.py启动

同理修改一下模型的路径这样就可以运行了。

2.模型的微调

P-Tuning v2

运行以下指令进行训练:

bash train.sh

train.sh 中的 PRE_SEQ_LEN 和 LR 分别是 soft prompt 长度和训练的学习率,可以进行调节以取得最佳的效果。P-Tuning-v2 方法会冻结全部的模型参数,可通过调整 quantization_bit 来被原始模型的量化等级,不加此选项则为 FP16 精度加载。

在默认配置 quantization_bit=4per_device_train_batch_size=1gradient_accumulation_steps=16 下,INT4 的模型参数被冻结,一次训练迭代会以 1 的批处理大小进行 16 次累加的前后向传播,等效为 16 的总批处理大小,此时最低只需 6.7G 显存。若想在同等批处理大小下提升训练效率,可在二者乘积不变的情况下,加大 per_device_train_batch_size 的值,但也会带来更多的显存消耗,请根据实际情况酌情调整。

如果你想要本地加载模型,可以将 train.sh 中的 THUDM/chatglm-6b 改为你本地的模型路径。

Finetune

如果需要进行全参数的 Finetune,需要安装 Deepspeed,然后运行以下指令:

bash ds_train_finetune.sh

想要训练自己的数据的话,只需要将train.sh中的

    --train_file AdvertiseGen/train.json \

    --validation_file AdvertiseGen/dev.json \

换成自己的数据集路径就可以了,注意官方给的例子中的数据集的格式有点问题,但是他们的可以训练,我之前按照他们的方式来就报错,后来是换成了标准的json格式就可以了(也可能是我的数据集有问题,但是换成了标准的json格式就不会报错了),要是训练中断了,可以从某个checkpoint点开始训练,只需要在train.sh脚本中加入--resume_from_checkpoint output/adgen-chatglm-6b-pt-128-2e-2/checkpoint-1000 \就可以了,这个的路径也是我自己的。下面是我自己微调的,不过因为数据集太少了,并且只用到了微调,所以效果很差。

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成
ACE-Step

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言

MATLAB代码实现了一个基于种智能优化法优化RBF神经网络的回归预测模型,其核心是通过智能优化法自动寻找最优的RBF扩展参数(spread),以提升预测精度。 1.主要功能 法优化RBF网络:使用种智能优化法优化RBF神经网络的核心参数spread。 回归预测:对输入特征进行回归预测,适用于连续值输出问题。 性能对比:对比不同优化法在训练集和测试集上的预测性能,绘制适应度曲线、预测对比图、误差指标柱状图等。 2.法步骤 数据准备:导入数据,随机打乱,划分训练集和测试集(默认7:3)。 数据归一化:使用mapminmax将输入和输出归一化到[0,1]区间。 标准RBF建模:使用固定spread=100建立基准RBF模型。 智能优化循环: 调用优化法(从指定文件夹中读取法文件)优化spread参数。 使用优化后的spread重新训练RBF网络。 评估预测结果,保存性能指标。 结果可视化: 绘制适应度曲线、训练集/测试集预测对比图。 绘制误差指标(MAE、RMSE、MAPE、MBE)柱状图。 十种智能优化法分别是: GWO:灰狼法 HBA:蜜獾法 IAO:改进天鹰优化法,改进①:Tent混沌映射种群初始化,改进②:自适应权重 MFO:飞蛾扑火法 MPA:海洋捕食者法 NGO:北方苍鹰法 OOA:鱼鹰优化法 RTH:红尾鹰法 WOA:鲸鱼法 ZOA:斑马
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值