[LLM] 优化器学习笔记（GD、SGD、SGD（Momentum）、AdaGrad、RMSprop、 Adam、Muon）

原创

已于 2025-06-20 16:46:43 修改 · 1.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #机器学习 #深度学习 #性能优化 #语言模型

于 2025-06-20 16:43:47 首次发布

优化器学习笔记（GD、SGD、SGD（Momentum）、AdaGrad、RMSprop、 Adam、Muon）

📌 梯度下降法 Gradient Descent (GD)

什么是 GD？

梯度下降是一种优化算法，通过不断沿函数的最陡下降方向（梯度的负方向）更新参数，寻找函数最小值。

目标：
给定一个损失函数 $f(\theta)$ ，找到参数 $\theta$ 使得函数最小化。

算法步骤（二维参数为例）

初始化参数 $\theta_0$ （如随机值）
计算当前梯度 $\nabla f(\theta)$
沿负梯度方向更新参数：
$\theta = \theta - \eta \cdot \nabla f(\theta)$
重复步骤 2~3，直到收敛

举例：函数 $(\theta - 3)^2$

最小值在 $\theta = 3$
梯度为 $\nabla f(\theta) = 2(\theta - 3)$
更新公式： $\theta = \theta - \eta \cdot 2(\theta - 3)$

步骤	$\theta$	梯度 $2(\theta-3)$	更新量	新 $\theta$
0	0.00	-6.00	+0.6	0.60
1	0.60	-4.80	+0.48	1.08
…	…	…	…	…

总结

梯度下降适用于小数据场景，通过每次全量计算梯度更新参数，稳定但收敛慢。

⚡ 随机梯度下降 SGD

什么是 SGD？

SGD 每次只使用一个样本的梯度进行参数更新，提高训练速度和计算效率。

核心流程

每轮训练打乱数据
对每个样本 $x_i, y_i)$ ：
- 计算梯度 $\nabla \mathcal{L}_i(\theta)$
- 参数更新 $\theta = \theta - \eta \cdot \nabla \mathcal{L}_i(\theta)$
重复多个 epoch

举例：线性回归 $f (x) = w x + b$

数据： $(1, 3), (2, 5), (3, 7)$
初始化 $\eta=0.1$

经过一轮 SGD 后， $w$ 和 $b$ 会逐步接近目标值 $(2,$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

学庭

关注关注

19
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

机器学习loss函数过大应对方法Momentum and GD

jcandzero的博客

09-23

1082

机器学习loss函数过大应对方法Momentum，

参与评论您还未登录，请先登录后发表或查看评论

Muon优化器赏析：向量与矩阵有何本质区别？

Paper weekly

12-11

1643

©PaperWeekly 原创 ·作者 |苏剑林单位 |科学空间研究方向 |NLP、神经网络随着 LLM 时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的 AdamW 已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对 AdamW 打的一些小补丁。不过，最近推特上一个名为“Mu...

大语言模型作为优化器：LLM在自动化优化中的应用与进展

m0_75126181的博客

09-23

1688

尽管仍面临诸多挑战，但LLM优化器的潜力巨大，有望为解决复杂优化问题提供新的思路和方法。随着技术的不断进步，我们有理由相信LLM优化器将在未来发挥越来越重要的作用，推动人工智能和优化领域的进一步发展。实验结果表明，LLM优化的提示在多个任务上的性能超过了人类专家设计的提示。Brooks等人的研究"Large Language Models can Implement Policy Iteration"证明了LLM能够有效实现策略迭代算法，这为将LLM应用于更复杂的决策问题开辟了新的可能性。

Muon：神经网络隐藏层的革命性优化器

AlgoCraft

06-17

2334

Muon优化器通过正交化设计实现神经网络训练加速创新，在CIFAR-10和NanoGPT任务中刷新训练速度记录。其核心技术采用5步牛顿-舒尔茨迭代进行矩阵正交化，相比传统SVD计算效率提升10倍以上，在bfloat16精度下稳定运行。关键设计包括：(1)针对隐藏层参数的定向优化，(2)精心调优的系数组合实现快速收敛，(3)仅增加1%计算开销的轻量化实现。实际测试显示，1.5B参数模型训练时间比AdamW节省25%，达到GPT-2 XL性能仅需10小时（8×H100）。

【速写】优化的深度与广度（Adam & Moun）

最新发布

梦想破三的奔三狗

10-18

1万+

方位与步长

Kimi论文——Muon优化器

个人Blog

03-04

1471

众所周知，目前主流应用的优化器是AdamW，不过一个新的优化器（仅仅发布在Github上）似乎比 AdamW优化器能够实现更加优异的效果，于此同时Kimi也出了一篇新的就是使用优化器，有必要了解一些这个优化器以及测试一下这个优化器效果。

Muon: An optimizer for hidden layers in neural networks

kebijuelun的博客

03-17

1906

Muon 激发了人们对于优化器创新的热情——长久以来，Adam/AdamW 几乎是大多数任务的不二之选，而 Muon 证明了通过深入挖掘梯度结构特性，我们仍能找到显著优于现有方法的新途径。

深入剖析 Muon 优化器（一）：从基础原理到 Kimi K2 大模型的应用

阿正的梦工坊

08-14

2026

Muon优化器通俗解释

olmocr Muon优化器：新型优化算法实现原理

gitblog_01016的博客

09-05

809

在深度学习模型训练中，优化算法（Optimizer）的选择直接影响模型的收敛速度和最终性能。传统的AdamW、SGD等优化器在处理大规模语言模型和视觉语言模型时，往往面临梯度爆炸、训练不稳定等问题。olmocr项目引入的Muon（MomentUm Orthogonalized by Newton-schulz）优化器，通过创新的正交化技术，为复杂文档OCR任务提供了更稳定高效的训练方案。 ## ...

算力减半性能反超：Moonlight-16B-A3B如何用Muon优化器重塑大模型格局

gitblog_00446的博客

10-01

753

2025年2月24日，Moonshot AI开源Moonlight-16B-A3B模型，以160亿总参数、30亿激活参数的混合专家（MoE）架构，在5.7T训练 tokens下实现MMLU=70.0、CMMLU=78.2的突破，将16B参数模型的训练成本压缩至传统方案的52%。 ## 行业现状：大模型的"效率困境" 当前大模型发展面临双重挑战：一方面，密集型模型参数量从7B跃升至70B，训练...

技术报告：Muon 优化器的首次大规模训练实践

强化学习曾小健

07-18

1154

发表于 2025年03月03日•7 min read近期，基于矩阵正交化（matrix orthogonalization）的Muon 优化器在小规模语言模型训练中展现出了优异的性能，但其在大模型训练中的可扩展性尚未得到验证。我们发现了两个提升 Muon 可扩展性的关键技术：(1)引入权重衰减（weight decay）；(2)精确调整每个参数的更新比例。有了这些改进，Muon可以直接用于大规模训练，无需额外的超参数调优。扩展性实验表明，相比 AdamW，在计算量最优的训练条件下，

常用的optimizer优化器和优化函数::[梯度下降SGD，牛顿法，ada系列(adagrad, rmsprop,adadelta,adam)]+炼丹策略

weixin_36378508的博客

04-08

4076

逻辑回归本身是可以用公式求解的，但是因为需要求逆的复杂度太高，所以才引入了梯度下降算法。一阶方法：梯度下降、随机梯度下降、mini 随机梯度下降降法。随机梯度下降不但速度上比原始梯度下降要快，局部最优化问题时可以一定程度上抑制局部最优解的发生。二阶方法：牛顿法、拟牛顿法：这里详细说一下牛顿法的基本原理和牛顿法的应用方式。牛顿法其实就是通过切线与x轴的交点不断更新切线的位置，直到达到曲线与x轴的交点得到方程解。在实际应用中我们因为常常要求解凸优化问题，也就是要求解函数一阶导数为0的位置，而.

Muon：加速神经网络训练的开源新工具

jobleap.cn求职助手首页

08-28

579

Muon是一种新型神经网络优化器，专门针对隐藏层权重优化设计。它通过将模型参数分为三组（Muon优化的核心层、AdamW处理的辅助参数和其他外围层），采用混合优化策略。相比传统优化器，Muon能提升20%训练速度，支持大批量训练，且在大模型上表现优异。该工具特别适合Transformer、LLM等大型网络，能有效降低训练成本，突破性能瓶颈。

momentum 与 sgd 的图像比较

八千里路云和月

06-26

1222

momentum: v的形状与params[key] 相同，与grads[key]相同。 v[key] = momentum*v[key] - lr*grads[key] params[key] += v[key] 当momentum=0时，就是SGD optimizer=Momentum(0.8,0)#相当于sgd,可以看到有多之字形震荡： optimizer=...

从Muon到AdaMuon：下一代优化器能否真正取代Adam？

Paper weekly

09-15

460

我本着吃瓜的态度，搜索了一下 Muon 的论文，结果 google scholar 上没有，arxiv 上也没有，最后才发现是一篇博客。这也让我有些犹豫：转向一个新方向必然带来一定的成本，而当时我正专注于 model merging 方面的研究，同时 hold 两个方向虽然可行，但前者已是一片红海，后者却仍迷雾重重——鸡蛋固然不应放在一个篮子里，但资源的分配也需谨慎权衡。这就是牛顿迭代的思想，最终通过设计一个多项式，通过迭代多次，便可以将一个 [0，1] 之间的数映射到 1 或者接近 1。

Moonlight-16B-A3B: 变革性的高效大语言模型，凭借Muon优化器打破训练效率极限

OpenCSG的博客

03-19

1102

这款全新的Mixture-of-Experts (MoE)架构的大型语言模型，凭借其创新的训练优化技术，特别是Muon优化器的使用，成功突破了训练效率的极限，展现出强大的性能表现。Moonshot AI团队发现，当模型的参数规模增加时，优化过程中的一些“偏向性”问题可能导致训练过程不稳定，进而影响最终模型的表现。分布式训练是大规模模型训练不可避免的挑战，如何在多个计算节点之间高效传输数据，避免计算瓶颈和通信开销，成为提升训练效率的关键。的参数规模，在训练时只激活其中的2.4B参数。

深度学习之优化函数

qq_28886195的博客

02-21

2194

在计算出模型的损失之后，就需要利用损失值进行模型参数的优化。在在计算出模型的损失之后，就需要利用损失值进行模型参数的优化。在实践操作中最常用到的是一阶优化函数，典型的一阶优化函数包括GD、SGD、 Momentum、Adagrad、Adam 等等。一阶优化函数在优化过程中求解的是参数的一阶导数，这些一阶导数的值就是模型中参数的微调值。这里引入了一个新的概念：梯度。梯度其实就是将多元函数的各...

通俗易懂理解（梯度下降）优化算法：Momentum、AdaGrad、RMSProp、Adam

Invokar的博客

02-06

5673

引言: 在深度学习的任务目标中，通常我们希望我们的学习结果能够在损失函数上得到一个较好的结果，即朝着损失函数最小的方向前进。但是对于大部分深度学习任务而言，其优化的目标通常是一个非凸函数，其优化难度会比较大，所以也就出现了一系列的优化函数。接下来我会用比较通俗易懂的语言来介绍一些比较著名的优化算法回顾：梯度下降法(GD)与随机梯度下降法(SGD)的理解 Note：本文的数学符号可能会与相关书...