gradient descent and its variants

最新推荐文章于 2023-07-30 17:06:46 发布

原创最新推荐文章于 2023-07-30 17:06:46 发布 · 178 阅读

1 ·

CC 4.0 BY-SA版权

机器学习基础专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍了深度学习中常用的优化器，包括随机梯度下降(SGD)、AdaGrad、RMSProp、动量(momentum)以及Adam等。针对每种优化器的特点进行了深入解析，并探讨了如何选择合适的优化器来提高模型的训练效率。

借鉴了：
Hongyi Li的ML课程第九节《tips for DL》
https://www.jianshu.com/p/aebcaf8af76e
《ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION》
https://zhuanlan.zhihu.com/p/105788925

Gradient descent及其变形

stochastic gradient descent
一次更新take in一个data point或一个mini-batch。
Adagrad
use first derivative to estimate second derivative
adaptive learning rate = learning rate/RMS of all previous and current gradients
large RMS(sum of gradients): small learning rate, which means we need to slow down the update speed;
small RMS: large learning rate
RMSProp
梯度平方进行加权均值
adaptive learning rate = learning rate/sigma
sigma includes all previous gradients g0 to gt-1, and current gradient gt.
small alpha: tends to believe gt to update parameters w_t-1
large alpha: tends to believe previous gradients (sigma t-1) to update w_t-1
momentum

大致朝原方向v_t-1走，新计算出的gradient(gt)会修正原更新方向v_t-1 by simply adding v_t-1 onto gt, which means强化与之同向的分量，弱化与之反向的分量。
Adam

mt //一阶矩(1st moment vector)，movement vector using momentum. First Moment Estimation，即梯度的均值.
vt //二阶原始矩(2nd raw moment vector)，i.e. E[(X^2)]，RMSProp. Second Moment Estimation，即梯度的未中心化的方差