一文看懂 SGD 随机梯度下降优化器

通俗解释:SGD 随机梯度下降优化器

​SGD(Stochastic Gradient Descent)​​ 就像一个“摸着石头过河”的探险家,每次只根据脚下的一小块石头(一个样本或小批量样本)调整方向,快速找到下山的最优路径(最小化损失函数)。


​核心思想​
  1. ​传统梯度下降(BGD)的缺点​

    • 想象你站在山顶,想找到最快下山的路。

    • ​BGD​​ 会先测量整座山所有点的坡度(计算全量梯度),再决定迈哪一步。​​优点是方向准,缺点是耗时​​(计算量大)。

  2. ​SGD 的改进​

    • ​SGD​​ 每次只踩一块石头(随机选一个样本),根据这块石头的坡度(单样本梯度)迈步。

    • ​优点​​:计算快,适合大数据;​​缺点​​:可能被一块大石头误导(噪声大),走弯路。


​SGD 的工作流程​
  1. ​随机选样本​​:从数据集中随机挑一个样本(或一小批样本)。

  2. ​算梯度​​:根据这个样本计算当前参数的梯度(坡度)。

  3. ​更新参数​​:沿着梯度的反方向(下山方向)调整参数。

  4. ​重复​​:不断选新样本,直到参数稳定(损失函数不再明显下降)。

​公式​​:


  • θ:模型参数(比如直线的斜率和截距)

  • η:学习率(步长,决定每次迈多大)

  • ∇L(θt​):当前样本的梯度(坡度)


​举个实际例子​

假设你训练一个模型预测房价(y=wx+b):

  • ​初始参数​​:随机猜 w=2, b=1(可能预测不准)。

  • ​随机选一个样本​​:比如房子面积 x=3,实际价格 y=7。

  • ​计算梯度​​:当前预测值 y^​=2×3+1=7,误差为0,梯度为0 → 参数不变。

  • ​再选一个样本​​:x=4,实际 y=9。预测值 y^​=2×4+1=9,误差仍为0 → 参数不变。

  • ​继续迭代​​:多次随机采样后,参数逐渐逼近真实值(比如 w=1.8, b=2.5)。


​SGD 的优缺点​

​优点​

​缺点​

​计算快​​:单样本计算,适合大数据

​噪声大​​:单样本梯度可能误导方向

​跳出局部最优​​:随机性可能找到更好的全局最优

​需调学习率​​:步长太大易震荡,太小收敛慢

​内存友好​​:不需要存全量数据梯度

​收敛慢​​:需更多迭代次数


​SGD 的“智能升级版”​

纯SGD太“莽撞”,实际中常结合其他技巧:

  1. ​Mini-batch SGD​​:每次用一小批样本(如32个),平衡效率与稳定性。

  2. ​动量法(Momentum)​​:记住之前的移动方向,减少震荡。

  3. ​自适应学习率​​:如Adam优化器,自动调整步长。


​总结​

SGD 是深度学习的“基石优化器”,通过​​随机采样+快速迭代​​,在大数据场景下高效训练模型。虽然它有点“近视”(只看局部),但通过技巧(如动量、学习率调整)可以变得聪明,最终找到最优解。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

daxiang12092205

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值