文章主要内容和创新点总结
主要内容
本文针对大型语言模型(LLMs)训练中传统随机梯度下降(SGD)方法的局限性,提出了一种名为SCSAdamW的优化算法。该算法结合随机共轭次梯度(Stochastic Conjugate Subgradients, SCS)与AdamW,旨在提升LLMs训练的收敛速度和可扩展性。
具体而言,SCSAdamW的核心构成包括:
- 自适应采样策略:基于样本复杂度分析和集中不等式动态调整样本量,平衡计算效率与估计精度;
- 随机共轭次梯度方向:通过凸组合前一次搜索方向与当前次梯度,生成更优的搜索方向,捕捉目标函数的曲率信息;
- AdamW的动态步长与解耦权重衰减:保留自适应学习率和稳定的权重衰减机制,避免正则化与梯度更新的相互干扰;
- 理论分析:证明了算法的收敛性(搜索方向范数收敛至零)、 stationary point 性质(搜索方向范数与次梯度范数的关联性),以及样本复杂度的合理性;
- 实验验证:在Wikitext-2、PennTreebank等数据集上,SCSAdamW的收敛速度和精度均优于Adam和AdamW。
创新点
- 首次将随机共轭次梯度方法应用于LLMs训练:无需计算Hessian矩阵,即
SCSAdamW优化LLM训练方法研究

订阅专栏 解锁全文
1038

被折叠的 条评论
为什么被折叠?



