本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景。
1、SGD的原理
SGD(随机梯度下降法)是基于最速梯度下降法的原理,假设我们存在损失函数,其中
是要学习参数,定义如下的优化路径
,使得损失函数
值最小。这是一个不断更新迭代参数
的过程,其中
表示其中某一更新步,
表示更新步长(即学习率),
表示更新方向。
假设存在最优参数,当前参数为最优参数附近的
,我们选择合适的参数更新步长,使得
逼迫最优参数。我们对目标损失函数
进行泰勒展开:
本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景。
SGD(随机梯度下降法)是基于最速梯度下降法的原理,假设我们存在损失函数,其中
是要学习参数,定义如下的优化路径
,使得损失函数
值最小。这是一个不断更新迭代参数
的过程,其中
表示其中某一更新步,
表示更新步长(即学习率),
表示更新方向。
假设存在最优参数,当前参数为最优参数附近的
,我们选择合适的参数更新步长,使得
逼迫最优参数。我们对目标损失函数
进行泰勒展开: