深度学习-Optimizer优化器的比较

最新推荐文章于 2024-09-14 19:30:00 发布

原创

最新推荐文章于 2024-09-14 19:30:00 发布 · 649 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #深度学习 #Optimizer优化器

本文探讨了深度学习中常用的优化器，包括BGD、SGD、Momentum、AdaGrad、RMSProp和Adam。BGD使用所有样本更新，适合凸函数但计算慢；SGD通过随机抽样加速，可能收敛到局部最优；Momentum利用动量加速收敛，抑制震荡；AdaGrad和RMSProp解决学习率问题，但AdaGrad后期学习率过小；Adam综合Momentum和RMSProp，实现稳定且自适应的学习率。

深度学习中常用的优化器一般有如下几种：

BGD（批量梯度下降法，Batch Gradient Descent）：是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。

优点：由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。

缺点：当样本数目 mm 很大时，每迭代一步都需要对所有样本计算，训练过程会很慢。

SGD（随机梯度下降法，Stochastic Gradient Descent）：原理和BGD类似，只不过每个迭代不是对全部的数据，而是随机抽取数据进行更新损失值。

优点：由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。

缺点：（1）准确度下降。由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛。（2）可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势。

Momentum（动量优化法）：动量优化方法是在梯度下降法的基础上进行的改变，具有加速梯度下降的作用。简单理解，就是为了防止波动，取前几次波动的平均值当做这次的权值W（记录之前几次更新的方向）。

优点：前后梯度方向一致时，能够加速学习，前后梯度方向不一致时,能够抑制震荡。

缺点：比较难学习

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。