Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW

SCSAdamW优化LLM训练方法研究

文章主要内容和创新点总结

主要内容

本文针对大型语言模型(LLMs)训练中传统随机梯度下降(SGD)方法的局限性,提出了一种名为SCSAdamW的优化算法。该算法结合随机共轭次梯度(Stochastic Conjugate Subgradients, SCS)与AdamW,旨在提升LLMs训练的收敛速度和可扩展性。

具体而言,SCSAdamW的核心构成包括:

  1. 自适应采样策略:基于样本复杂度分析和集中不等式动态调整样本量,平衡计算效率与估计精度;
  2. 随机共轭次梯度方向:通过凸组合前一次搜索方向与当前次梯度,生成更优的搜索方向,捕捉目标函数的曲率信息;
  3. AdamW的动态步长与解耦权重衰减:保留自适应学习率和稳定的权重衰减机制,避免正则化与梯度更新的相互干扰;
  4. 理论分析:证明了算法的收敛性(搜索方向范数收敛至零)、 stationary point 性质(搜索方向范数与次梯度范数的关联性),以及样本复杂度的合理性;
  5. 实验验证:在Wikitext-2、PennTreebank等数据集上,SCSAdamW的收敛速度和精度均优于Adam和AdamW。
创新点
  1. 首次将随机共轭次梯度方法应用于LLMs训练:无需计算Hessian矩阵,即
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值