深度学习-Optimizer优化器的比较

本文探讨了深度学习中常用的优化器,包括BGD、SGD、Momentum、AdaGrad、RMSProp和Adam。BGD使用所有样本更新,适合凸函数但计算慢;SGD通过随机抽样加速,可能收敛到局部最优;Momentum利用动量加速收敛,抑制震荡;AdaGrad和RMSProp解决学习率问题,但AdaGrad后期学习率过小;Adam综合Momentum和RMSProp,实现稳定且自适应的学习率。

深度学习中常用的优化器一般有如下几种:

BGD(批量梯度下降法,Batch Gradient Descent):是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。

   优点:由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优。

  缺点:当样本数目 mm 很大时,每迭代一步都需要对所有样本计算,训练过程会很慢。

SGD(随机梯度下降法,Stochastic Gradient Descent):原理和BGD类似,只不过每个迭代不是对全部的数据,而是随机抽取数据进行更新损失值。

   优点:由于不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快。

   缺点:(1)准确度下降。由于即使在目标函数为强凸函数的情况下,SGD仍旧无法做到线性收敛。(2)可能会收敛到局部最优,由于单个样本并不能代表全体样本的趋势。

Momentum(动量优化法):动量优化方法是在梯度下降法的基础上进行的改变,具有加速梯度下降的作用。简单理解,就是为了防止波动,取前几次波动的平均值当做这次的权值W(记录之前几次更新的方向)。

   优点:前后梯度方向一致时,能够加速学习,前后梯度方向不一致时,能够抑制震荡。

   缺点:比较难学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值