【AI-18】Adam和SGD优化算法比较

Adam(Adaptive Moment Estimation)和 SGD(Stochastic Gradient Descent,随机梯度下降)是两种常见的优化算法,它们在不同方面有各自的特点。

一、算法原理

SGD:
通过计算损失函数关于每个样本的梯度,然后根据学习率来更新模型参数。每次更新只使用一个样本(随机选择)或者一个小批次的样本,所以也称为随机梯度下降。

Adam:
结合了动量法和 RMSprop(Root Mean Square Propagation)的优点。
一方面,它像动量法一样,通过积累过去梯度的指数加权平均来加速收敛。另一方面,它像 RMSprop 一样,根据梯度的二阶矩自适应地调整学习率。
公式较为复杂,涉及到一阶矩估计(梯度的指数加权平均)、二阶矩估计(梯度平方的指数加权平均)以及对这两个估计值的偏差修正等步骤。

二、收敛速度

Adam:
通常具有较快的收敛速度。由于它能够自适应地调整学习率,并且结合了动量的特性,所以在很多情况下可以更快地找到较优的解。
尤其是在训练的初始阶段,能够迅速地朝着最优解的方向前进。
SGD:
收敛速度相对较慢。尤其是在使用固定学习率的情况下,可能需要更多的迭代次数才能达到较好的效果。
但是,在一些情况下,SGD 可能会以更稳定的方式收

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值