38、深度学习中的优化器、正则化与卷积神经网络

最新推荐文章于 2025-11-25 14:31:30 发布

人间计算器

最新推荐文章于 2025-11-25 14:31:30 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的视觉之旅文章标签：深度学习优化器正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/151036062

深度学习的视觉之旅专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习中的优化器、正则化与卷积神经网络

一、优化器介绍

1. Adadelta与RMSprop

Adadelta算法中的参数γ主要关注近期梯度，通常将γ设置为约0.9。此外，Adadelta还有另一个参数ε（epsilon），其作用是保证计算的数值稳定性，大多数库会为其设置默认值，一般无需更改，除非有特殊需求。

RMSprop与Adadelta发明时间相近，工作方式类似，但数学计算略有不同。RMSprop使用均方根（RMS）操作来确定对梯度的调整量，其也使用参数γ来控制“记忆”程度，γ的初始值也可设为约0.9。

2. Adam算法

之前的算法（如Adagrad、Adadelta、RMSprop）都会保存每个权重的梯度平方列表，然后通过累加列表中的值来创建缩放因子，每次更新步骤的梯度会除以这个总和。Adagrad在构建缩放因子时对列表中的所有元素赋予相同权重，而Adadelta和RMSprop则认为较旧的元素重要性较低。

然而，将梯度平方后放入列表会丢失梯度正负信息，Adam算法为避免这一问题，会同时保存未平方的梯度列表，然后结合两个列表来推导缩放因子。Adam算法有两个参数β1和β2，论文作者建议将β1设为0.9，β2设为0.999，这些值通常效果良好。在测试集上，Adam算法输出效果出色，误差较小，大约在第900个epoch时误差接近0，比Adagrad或Adadelta更快。

3. 优化器选择

目前有众多优化器，且不断有新的出现，每个都有其优缺点。在简单测试中，带有Nesterov动量的小批量随机梯度下降（SGD）表现最佳，Adam紧随其后。但在更复杂的情况下，自

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。