Adam等机器学习深度学习主流优化算法简析

原创

于 2019-08-05 00:01:10 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了优化算法在深度学习中的作用，从SGD到Adam的发展历程，包括无动量方法如BGD、SGD及其变种，以及二阶动量或自适应学习率的AdaGrad、AdaDelta、RMSProp和Adam等。Adam算法因其鲁棒性和快速收敛性成为目前最常用的优化算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是优化算法？

简单来说就是一种通过迭代逼近最优解的方法，即最优解的渐近估计方法。

深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的发展历程，目前Adam应该是最常用的优化算法。

为什么需要优化算法？

1.有的问题并没有解析解，只能迭代求得近似解

2.问题有解析解，但是求解析解的计算复杂度大的无法接受

3.求解析解有新数据进来时候需要全部重算，而online算法则只需要更新一下

无动量或一阶动量方法

人工智能进阶必备——熟知机器学习深度学习主流优化算法

梯度下降基础公式

BGD（Batch gradient descent/批量梯度下降)：

简介：每一步迭代都用到训练集所有数据
缺点：该方法缺点是计算复杂度，存储复杂度都很高，只适用于小样本
优点：全局最优解，实现简单

SGD（Stochastic Gradient Descent/随机梯度下降)/MBGD(Mini-batch Gradient Descent/小批量梯度下降法):

简介：每步迭代用一小批样本
缺点：参数初始化敏感，容易陷入局部最小值，一般不是全局最优，收敛慢（路径是锯齿状的）。
优点：较BGD训练速度快，但依旧算是慢，经常会在局部最小值处震荡。
注意点：选取batch时候要尽量保持抽取的随机性，即熵最大准则。然后随机抽取的方式会引入噪声，所以即使算法到达最优解附近，算法仍会震荡，所以我们需要随着时间的推移逐渐降低学习率。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。