DatawhaleAI冬令营学习打卡(Task1)

DatawhaleAI冬令营学习打卡(Task1)

这篇博客就简单记录一下学习打卡中涉及到的小知识点啦(lora,以及lora的相关参数,模型推理设定的超参数),用大白话简单说一下。

平台使用

使用讯飞星辰Maas,快速完成了数据集上传,模型选择,使用数据集进行微调,全部流程20分钟左右就搞定了,适合初学者简单体验。

lora微调方法

模型微调时,选择了lora微调方法,该方法是大模型微调应用的非常广泛的一个方法,通过对模型的某些层中引入低秩矩阵来进行微调,应用这个方法需要调整的模型参数会降低非常多。
直观对这个方法理解就是:假设你有一个大的模型权重矩阵 ( W0),模型训练后参数发生变化的过程从线性代数可以简单理解为W = W0 + ΔW,lora方法其实就是开辟了一个新的矩阵ΔW在原来的模型参数旁边,但是这个时候参数量和原来并没有什么变化,就将ΔW变为AB两个低秩矩阵,这里的秩是一个超参数,可以自己设置,一般设置为r = 8,这个时候他的AB的参数量就降低了很多,需要训练的参数量就从W0降低为了AB。

lora示意图
同时,为了控制AB矩阵对整体微调的影响,还会有一个Lora缩放系数lora_alpha,用来控制微调部分 ( A B ) 对原始权重矩阵 ( W0 ) 的影响。其目的是为了更好地调节微调的幅度,从而避免对原始模型造成过大的扰动。这个公式就进化为下图:lora公式
( r ) 是低秩矩阵的秩(rank),用于标准化。
( α )是Lora缩放系数。

模型推理常用参数

这次微调体验流程,最后有涉及到top_p, temperature两个参数,除了这个地方,还经常在调用各类大模型API时进行设定,来控制模型输出的自由度,top_p, temperature越低,模型输出越稳定,你想让模型更听你的话,就设定的低一些,如果你想让模型更creative,就稍微高一些。

以上就是我对task1涉及到的知识点的小补充,继续学习,keep going!!!

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值