深度学习中的优化器、正则化与卷积神经网络
一、优化器介绍
1. Adadelta与RMSprop
Adadelta算法中的参数γ主要关注近期梯度,通常将γ设置为约0.9。此外,Adadelta还有另一个参数ε(epsilon),其作用是保证计算的数值稳定性,大多数库会为其设置默认值,一般无需更改,除非有特殊需求。
RMSprop与Adadelta发明时间相近,工作方式类似,但数学计算略有不同。RMSprop使用均方根(RMS)操作来确定对梯度的调整量,其也使用参数γ来控制“记忆”程度,γ的初始值也可设为约0.9。
2. Adam算法
之前的算法(如Adagrad、Adadelta、RMSprop)都会保存每个权重的梯度平方列表,然后通过累加列表中的值来创建缩放因子,每次更新步骤的梯度会除以这个总和。Adagrad在构建缩放因子时对列表中的所有元素赋予相同权重,而Adadelta和RMSprop则认为较旧的元素重要性较低。
然而,将梯度平方后放入列表会丢失梯度正负信息,Adam算法为避免这一问题,会同时保存未平方的梯度列表,然后结合两个列表来推导缩放因子。Adam算法有两个参数β1和β2,论文作者建议将β1设为0.9,β2设为0.999,这些值通常效果良好。在测试集上,Adam算法输出效果出色,误差较小,大约在第900个epoch时误差接近0,比Adagrad或Adadelta更快。
3. 优化器选择
目前有众多优化器,且不断有新的出现,每个都有其优缺点。在简单测试中,带有Nesterov动量的小批量随机梯度下降(SGD)表现最佳,Adam紧随其后。但在更复杂的情况下,自
超级会员免费看
订阅专栏 解锁全文
696

被折叠的 条评论
为什么被折叠?



