TensorFlow的优化类公式_tensorflow gradientdescentoptimizer-优快云博客

本文链接：https://blog.youkuaiyun.com/Ezra521/article/details/117743788

本文介绍了TensorFlow中几种常用的优化器及其工作原理，包括梯度下降、Adagrad、RMSProp、动量优化及Adam优化等方法，并详细阐述了它们的迭代公式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

优化器

TensorFlow的优化类主要有以下几个：

GradientDescentOptimizer：最普通的批量梯度下降，令学习速率为 $\eta$ ， $t$ 代表本次迭代， $t + 1$ 代表下次迭代，则梯度迭代公式如下：

$\theta_{𝑡+1}=\theta_𝑡−\eta \times \frac{\partial l(\theta)}{\partial \theta} \tag{1.1}$

AdagradOptimizer：进行参数迭代的同时记录了每个参数每次迭代的梯度的平方和，下次迭代时梯度与累积平方和的平方根成反比。这样会对低频的参数做较大的更新，对高频的参数做较小的更新，对于稀疏数据表现的更好；但是由于学习速率越来越小，有可能没有到达最低点学习速率就变得很慢了，难以收敛。令 $s$ 为梯度累积平方和， $\varepsilon$ 为极小量，t代表本次迭代， $t - 1$ 代表上次迭代， $t + 1$ 代表下次迭代，梯度迭代公式如下：

$s_t = s_{t-1}+(\frac{\partial l(\theta)}{\partial\theta})^2 \tag{1.2}$
$\theta_{t+1} = \theta_t-\frac{\eta}{\sqrt {s_t+\varepsilon}}\times \frac{\partial l (\theta)}{\partial\theta}\tag{1.3}$

RMSPropOptimizer：为解决AdagradOptimizer后期更新速率过慢的问题，RMSprop使用加权累积平方和替换累积平方和。令 $m$ 代表梯度加权累积平方和， $\varepsilon$ 为极小量， $\beta$ 为权重， $t$ 代表本次迭代， $t - 1$ 代表上次迭代， $t + 1$ 代表下次迭代，梯度迭代公式如下：

$m_t = \beta m_{t-1}+(1-\beta)(\frac{\partial l(\theta)}{\partial\theta})^2 \tag{1.4}$
$\theta_{t+1} = \theta_t-\frac{\eta}{\sqrt {m_t+\varepsilon}}\times \frac{\partial l (\theta)}{\partial\theta}\tag{1.5}$

MomentumOptimizer：多一个必须参数“动量速率”，每次迭代时参考前一次迭代的“动量”，在迭代中方向不变的维度做较大的更新，迭代中方向反复改变的维度做较小的更新。适用于在不同维度梯度差距很大的情况，更新不会在小梯度方向反复震荡。令 $\gamma$ 代表动量速率， $t$ 代表本次迭代， $t - 1$ 代表上次迭代， $t + 1$ 代表下次迭代，梯度迭代公式如下：

$v_t=\gamma \times v_{t-1}+\eta \frac{\partial l (\theta)}{\partial\theta}\tag{1.6}$

$\theta_{t+1}=\theta_t - v_t\tag{1.7}$

AdamOptimizer：综合了MomentumOptimizer和RMSPropOptimizer，既包含动量（一次项）部分也包含衰减（两次项）部分。令f代表动量， $g$ 代表衰减， $\beta_1,\beta_2$ 为权重， $t$ 代表本次迭代， $t - 1$ 代表上次迭代， $t + 1$ 代表下次迭代：