Adam：一种随机优化方法

最新推荐文章于 2025-01-05 16:53:13 发布

转载最新推荐文章于 2025-01-05 16:53:13 发布 · 1.3k 阅读

神经网络基础专栏收录该内容

7 篇文章

订阅专栏

Adam算法是一种自适应学习率优化算法，它结合了一阶矩估计和二阶矩估计来动态调整每个参数的学习速率。该方法适用于非平稳目标函数和稀疏梯度场景，并且能够自然地进行步长退火。

部署运行你感兴趣的模型镜像

简介：

Adam 这个名字来源于 adaptive moment estimation，自适应矩估计。概率论中矩的含义是：如果一个随机变量 X 服从某个分布，X 的一阶矩是 E(X)，也就是样本平均值，X 的二阶矩就是 E(X^2)，也就是样本平方的平均值。Adam 算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。Adam 也是基于梯度下降的方法，但是每次迭代参数的学习步长都有一个确定的范围，不会因为很大的梯度导致很大的学习步长，参数的值比较稳定。it does not require stationary objective, works with sparse gradients, naturally performs a form of step size annealing。

您可能感兴趣的与本文相关的镜像