32、深度学习优化器与学习率调度策略解析

深度学习优化器与学习率调度策略解析

1. 优化器介绍

1.1 动量优化(Momentum Optimization)

当输入数据的尺度差异较大时,代价函数会呈现出细长碗状的形态。梯度下降在陡峭的斜坡上下降速度较快,但在山谷中下降的速度却非常缓慢。而动量优化则能够在山谷中加速下降,直至到达谷底(即最优解)。在未使用批量归一化的深度神经网络中,上层的输入尺度往往差异较大,此时使用动量优化能带来显著的提升,还能帮助模型跳过局部最优解。

不过,由于动量的存在,优化器可能会出现超调现象,即越过最优解后再返回,如此反复振荡多次后才会稳定在最小值处。因此,在系统中引入一定的摩擦力是有益的,它可以消除这些振荡,从而加速收敛。

在 Keras 中实现动量优化非常简单,只需使用 SGD 优化器并设置其动量超参数即可:

import keras

optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9)

动量优化的一个缺点是需要额外调整一个超参数,但在实践中,动量值设为 0.9 通常能取得较好的效果,且速度几乎总是比普通的梯度下降快。

1.2 涅斯捷罗夫加速梯度(Nesterov Accelerated Gradient,NAG)

涅斯捷罗夫加速梯度是动量优化的一个小变体,通常比普通的动量优化更快。它的核心思想是在动量方向上稍微提前一点的位置测量代价函数的梯度,而不是在当前位置测量。具体来说,它在 $\theta + \beta m$ 处测量梯度,其中 $\th

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值