【AI-18】Adam和SGD优化算法比较

最新推荐文章于 2025-05-20 09:30:24 发布

W Y

最新推荐文章于 2025-05-20 09:30:24 发布

阅读量1k

点赞数 5

文章标签：人工智能算法 Adam SGD 深度学习

本文链接：https://blog.youkuaiyun.com/qq_45611002/article/details/142206185

版权

Adam（Adaptive Moment Estimation）和 SGD（Stochastic Gradient Descent，随机梯度下降）是两种常见的优化算法，它们在不同方面有各自的特点。

一、算法原理

SGD：
通过计算损失函数关于每个样本的梯度，然后根据学习率来更新模型参数。每次更新只使用一个样本（随机选择）或者一个小批次的样本，所以也称为随机梯度下降。

Adam：
结合了动量法和 RMSprop（Root Mean Square Propagation）的优点。
一方面，它像动量法一样，通过积累过去梯度的指数加权平均来加速收敛。另一方面，它像 RMSprop 一样，根据梯度的二阶矩自适应地调整学习率。
公式较为复杂，涉及到一阶矩估计（梯度的指数加权平均）、二阶矩估计（梯度平方的指数加权平均）以及对这两个估计值的偏差修正等步骤。

二、收敛速度

Adam：
通常具有较快的收敛速度。由于它能够自适应地调整学习率，并且结合了动量的特性，所以在很多情况下可以更快地找到较优的解。
尤其是在训练的初始阶段，能够迅速地朝着最优解的方向前进。
SGD：
收敛速度相对较慢。尤其是在使用固定学习率的情况下，可能需要更多的迭代次数才能达到较好的效果。
但是，在一些情况下，SGD 可能会以更稳定的方式收