Adam等机器学习深度学习主流优化算法简析

本文介绍了优化算法在深度学习中的作用,从SGD到Adam的发展历程,包括无动量方法如BGD、SGD及其变种,以及二阶动量或自适应学习率的AdaGrad、AdaDelta、RMSProp和Adam等。Adam算法因其鲁棒性和快速收敛性成为目前最常用的优化算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是优化算法?

简单来说就是一种通过迭代逼近最优解的方法,即最优解的渐近估计方法。

深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的发展历程,目前Adam应该是最常用的优化算法。

为什么需要优化算法?

1.有的问题并没有解析解,只能迭代求得近似解

2.问题有解析解,但是求解析解的计算复杂度大的无法接受

3.求解析解有新数据进来时候需要全部重算,而online算法则只需要更新一下

无动量或一阶动量方法

人工智能进阶必备——熟知机器学习深度学习主流优化算法

梯度下降基础公式

BGD(Batch gradient descent/批量梯度下降):

  • 简介:每一步迭代都用到训练集所有数据
  • 缺点:该方法缺点是计算复杂度,存储复杂度都很高,只适用于小样本
  • 优点:全局最优解,实现简单

SGD(Stochastic Gradient Descent/随机梯度下降)/MBGD(Mini-batch Gradient Descent/小批量梯度下降法):

  • 简介:每步迭代用一小批样本
  • 缺点:参数初始化敏感,容易陷入局部最小值,一般不是全局最优,收敛慢(路径是锯齿状的)。
  • 优点:较BGD训练速度快,但依旧算是慢,经常会在局部最小值处震荡。
  • 注意点:选取batch时候要尽量保持抽取的随机性,即熵最大准则。然后随机抽取的方式会引入噪声,所以即使算法到达最优解附近,算法仍会震荡,所以我们需要随着时间的推移逐渐降低学习率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值