1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品

部署运行你感兴趣的模型镜像
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

只要改一行代码,就能让大模型训练效率提升至1.47倍。

7f135a54fe1db44658153d8018cd5341.png

拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。

在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。

32ba7e018f9708c9f34f1c17189086a4.png

该优化器以哈密顿量和下降动力学为理论基础,在加速的同时不影响收敛特性。

作者在600M到1B不同参数规模的Llama模型上进行了试验,获得了最高47%的加速率。

该研究相关代码已经开源,在GitHub上有使用方法的详细讲解。

2f7c14f41fa449a7e0dd0bd0cbe11768.png

一行代码改进大模型训练

Cautious Optimizers在PyTorch当中增加的一行代码,核心思路是引入实现一种掩蔽机制,从而避免参数更新的方向与当前梯度方向相悖

c46ad940d9e619aad7814d4d76f7c4d0.png

因为这两个方向一旦不一致,就有可能导致损失函数暂时增加,造成收敛速度的减缓。

不过作者并未在方向不一致的来源问题上过度纠结,而是引入了一种判断机制,在参数更新之前增加一步计算,从而过滤掉方向不一致的情形。

这也正是上面代码的直接作用。

24bf5dd4f2b2afd597e420ea0d8a25cb.png

GD:梯度下降,GDM:带动量的梯度下降,C-GDM:本项目

具体来说,加入的两行代会对u和g两个向量求内积,u向量对应优化器给出的参数更新方向,而g向量对应当前时刻的梯度方向。

作者设计了一个对齐掩码函数ϕ,当u和g的内积小于0时(即方向不一致),ϕ的输出为0向量;当内积大于等于0时,ϕ的输出为全1向量。

而一旦ϕ为零向量时,w_t计算式中含u的项也会变为零向量,导致此项更新被跳过。

45fd5094dd40ba3d90e16273b65592dd.png

这样就可以判断参数更新和梯度方向是否一致,如果不一致则不会用于参数更新,避免了训练过程中损失函数的回升。

训练效率提升47%

为了评估Cautious Optimizers的具体效果,作者分别在语言模型Llama和视觉模型MAE上进行了试验。

作者选取了60M、100M、350M和1B四种参数规模的Llama模型,在C4语料库上进行预训练。

优化器选用了AdamW和Lion,以及它们对应的Cautious版本:C-AdamW和C-Lion,每个实验中进行1万步迭代。

结果C-AdamW和C-Lion在所有规模上都表现出明显的收敛加速效果。

尤其是在1B规模上,相比原版的AdamW和Lion,它们的样本效率分别提高了47%和28%,这表明Cautious Optimizer能有效减少训练震荡,使收敛更平稳高效。

bff647c4f10b6f795f14c1d07cf5935c.png

并且,Cautious Optimizer在所有情况下都取得了更低的困惑度,印证了其出色的泛化性能。

026d1b8c982b15d5192063e8c6dee3bd.png

为了评估模型的实际效果,研究者在语句匹配、文本蕴含、情感分类等6个GLUE下游任务上测试了AdamW和C-AdamW优化后1B模型的表现,

结果表明,C-AdamW的平均得分比AdamW高出2%,在大多数任务上都取得了进步,说明Cautious跳过部分参数更新的方式不会引起模型性能下降。

163605d5fa0cb9560005db23eca719ad.png

对于视觉模型,作者以ViT为骨干网络,在ImageNet-1K数据集上预训练了MAE模型。

由于视觉任务的特殊性,训练过程采用了随机遮挡图像块并重建的范式,因此优化目标是最小化重建误差,而非通常的分类损失。

作者对比了AdamW和C-AdamW的表现,即训练50轮后的最终重建误差,结果C-AdamW的误差为0.5926,低于AdamW的0.6085。

88ab30765291ca5ae0e46c17f3629dba.png

一作曾在一周内复刻o1

本项目是由四名华人学者共同打造的。

第一作者Kaizhao Liang,是AI推理加速服务商SambaNova公司的一名高级ML工程师。

在o1模型发布一周内,该公司就推出了一个类似o1模型思考过程的开源平替,主要作者正是Liang。

12d75d0d8ec51e8a192f63af9103b6db.png

其他三名作者是得州大学奥斯汀分校CS助理教授Qiang Liu,以及他的两名博士生,Lizhang Chen和Bo Liu。

此外,Liang的人工智能硕士学位也是从该校获得。

论文地址:
https://arxiv.org/abs/2411.16085
GitHub:
https://github.com/kyleliang919/C-Optim

—  —

「MEET2025智能未来大会」
火热
报名中

定档12月11日!李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025智能未来大会探讨行业破局之道了!

最新嘉宾阵容在此观众报名通道已开启!欢迎来到MEET智能未来大会,期待与您一起预见智能科技新未来 ba86863b79a9d43d00e74a0b048cb52c.png

37d3b4013224f117cd4986237d950733.png

82e3f9fe5af1e661546ea00b104e7994.png

0f53b18a858954b53003896617123f13.png

9ec958969f7868701636fb640159e677.png

2944f66d4d295a1cd398f1292a43fba3.png

57184ec076c651909dc38a9b0c9d2924.png

b1d2e07be6e4e0adf60d7a36bbb6ca93.png

08127ad9425a4e295e097a44c7566b13.png

8da4ea851f3a4c0adde319e4d16a64ae.png

07bf22ca3eb51507be4fffeeb00394c3.png

5ae81973ff7ba60c39bf0e603b5c37c2.png

c7dcd7a7bcfade09b7ef10df72b8ce92.png

50174f86d6b48d4ffbefa20a3da49a78.png

0e758c9677dccf2ede15326d9e297a4a.png

e6520230a1945852ee84a8daaab7abc6.png

e2964738b85935507298373da9ea79a7.png

0d62168f1b6a34bf1ba2d4ffa1bb35f0.png

73c5e48796ba2bcccb7872fed3581206.png

outside_default.png

左右滑动查看最新嘉宾阵容

outside_default.png

点这里👇关注我,记得标星哦~

您可能感兴趣的与本文相关的镜像

EmotiVoice

EmotiVoice

AI应用

EmotiVoice是由网易有道AI算法团队开源的一块国产TTS语音合成引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值