1. SGD
现在的SGD一般都指小批量梯度下降,即每一次迭代计算mini-batch的梯度,然后对参数进行更新。
其中是模型参数,
是模型目标函数,
是目标函数的梯度,
是学习率。
难点(缺点):
(1)学习率的选择。过低收敛缓慢,过高无法收敛。
(2)“之字形”的出现,即在陡谷(一种在一个方向的弯曲程度远大于其他方向的表面弯曲情况)处震荡。如下图所示

2. 动量法(Momentum)
本文详细介绍了深度学习优化中的几种算法,包括SGD、动量法、Nesterov、Adagrad、RMSprop、Adadelta、Adam以及Nadam。这些算法针对梯度下降中的问题提出解决方案,如学习率选择、局部最优等,其中Adam和Nadam结合了一阶和二阶动量,表现出良好的优化效果。
1. SGD
现在的SGD一般都指小批量梯度下降,即每一次迭代计算mini-batch的梯度,然后对参数进行更新。
其中是模型参数,
是模型目标函数,
是目标函数的梯度,
是学习率。
难点(缺点):
(1)学习率的选择。过低收敛缓慢,过高无法收敛。
(2)“之字形”的出现,即在陡谷(一种在一个方向的弯曲程度远大于其他方向的表面弯曲情况)处震荡。如下图所示

2. 动量法(Momentum)
533

被折叠的 条评论
为什么被折叠?