32、深度学习优化器与学习率调度策略解析

github5actions

于 2025-10-04 15:39:59 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精要文章标签：深度学习优化器学习率调度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/github5actions/article/details/154856554

机器学习实战精要专栏收录该内容

74 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习优化器与学习率调度策略解析

1. 优化器介绍

1.1 动量优化（Momentum Optimization）

当输入数据的尺度差异较大时，代价函数会呈现出细长碗状的形态。梯度下降在陡峭的斜坡上下降速度较快，但在山谷中下降的速度却非常缓慢。而动量优化则能够在山谷中加速下降，直至到达谷底（即最优解）。在未使用批量归一化的深度神经网络中，上层的输入尺度往往差异较大，此时使用动量优化能带来显著的提升，还能帮助模型跳过局部最优解。

不过，由于动量的存在，优化器可能会出现超调现象，即越过最优解后再返回，如此反复振荡多次后才会稳定在最小值处。因此，在系统中引入一定的摩擦力是有益的，它可以消除这些振荡，从而加速收敛。

在 Keras 中实现动量优化非常简单，只需使用 SGD 优化器并设置其动量超参数即可：

import keras

optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9)

动量优化的一个缺点是需要额外调整一个超参数，但在实践中，动量值设为 0.9 通常能取得较好的效果，且速度几乎总是比普通的梯度下降快。

1.2 涅斯捷罗夫加速梯度（Nesterov Accelerated Gradient，NAG）

涅斯捷罗夫加速梯度是动量优化的一个小变体，通常比普通的动量优化更快。它的核心思想是在动量方向上稍微提前一点的位置测量代价函数的梯度，而不是在当前位置测量。具体来说，它在 $\theta + \beta m$ 处测量梯度，其中 $\th

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。