38、深度学习中的优化器、正则化与卷积神经网络

深度学习中的优化器、正则化与卷积神经网络

一、优化器介绍

1. Adadelta与RMSprop

Adadelta算法中的参数γ主要关注近期梯度,通常将γ设置为约0.9。此外,Adadelta还有另一个参数ε(epsilon),其作用是保证计算的数值稳定性,大多数库会为其设置默认值,一般无需更改,除非有特殊需求。

RMSprop与Adadelta发明时间相近,工作方式类似,但数学计算略有不同。RMSprop使用均方根(RMS)操作来确定对梯度的调整量,其也使用参数γ来控制“记忆”程度,γ的初始值也可设为约0.9。

2. Adam算法

之前的算法(如Adagrad、Adadelta、RMSprop)都会保存每个权重的梯度平方列表,然后通过累加列表中的值来创建缩放因子,每次更新步骤的梯度会除以这个总和。Adagrad在构建缩放因子时对列表中的所有元素赋予相同权重,而Adadelta和RMSprop则认为较旧的元素重要性较低。

然而,将梯度平方后放入列表会丢失梯度正负信息,Adam算法为避免这一问题,会同时保存未平方的梯度列表,然后结合两个列表来推导缩放因子。Adam算法有两个参数β1和β2,论文作者建议将β1设为0.9,β2设为0.999,这些值通常效果良好。在测试集上,Adam算法输出效果出色,误差较小,大约在第900个epoch时误差接近0,比Adagrad或Adadelta更快。

3. 优化器选择

目前有众多优化器,且不断有新的出现,每个都有其优缺点。在简单测试中,带有Nesterov动量的小批量随机梯度下降(SGD)表现最佳,Adam紧随其后。但在更复杂的情况下,自

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值