深度学习优化器+公式推导_深度学习优化器公式-优快云博客

本文链接：https://blog.youkuaiyun.com/curious_undergather/article/details/111348755

基础优化
待学习
Reference

本人学习记录，侵删，转载请署名

基础优化

$w\,\,=\,\,w\,\,+\,\,\varDelta \,\,w$

花书第8章Optimization for Training Deep Models中对机器学习中的优化器有如下定义:

finding the parameters $\theta$ of a neural network that significantly reduce a cost function $J(\theta)$ ,

which typically includes a performance measure evaluated on the entire training set as well as additional regularization terms

1. GD — 梯度下降

1.1 BGD — 批量梯度下降

BGD

BGD（Batch Gradient Descent）在求解梯度时一次性的将整个数据集进行迭代，从而计算出平均的梯度用于参数的更新

$w_{i+1}=w-\eta \frac{1}{m}\sum_{j=0}^m{\frac{\partial C}{\partial w}_j}$

$m$ 为数据量数， $C$ 为损失函数

优势 — 每次迭代均会往最优化的方向跑，且由于考虑到整个数据集，下降时不会出现震荡
劣势 — 每次优化需遍历整个数据集，时间空间消耗巨大，血亏

代码

1.2 SGD — 随机梯度下降

SGD（Stochastic Gradient Descent）— 在每次求解梯度时仅从数据集中随机的选取一个数据点进行梯度计算，从而更新参数

$\Delta w=-\eta J^{\prime}(w) 或 w_{i+1}=w-\eta \frac{\partial C}{\partial w}$
$\eta$ 指学习率， $J^{\prime}$ 指损失关于参数的梯度 ( $\nabla_{w} J(w)$ 也有这种形式) $C$ 为损失函数

其中每次用于更新的数据量为1

优势 — 优化的速度很快

劣势 — 数据中会存在噪音，使得优化朝着并不是最优的方向而迭代. 且还可能使得训练的准确率降低. 但总体还是朝着优化的方向前进的

在这里插入图片描述

代码

1.3 MBGD — 小批量梯度下降

在这里插入图片描述

$w=w-\eta \cdot \nabla _wJ\left( w;x^{(i:i+n)};y^{(i:i+n)} \right)$

MBGD（Mini-Batch Gradient Descent）将BGD和SGD求一个折中的办法，每次从数据集中选取一小部分的数据进行计算梯度

优势 — 加快梯度下降的迭代速度, 降低数据集中单一噪音数据点对优化的影响

劣势 — 对于鞍点, SGD会在鞍点附近停止更新, 而MSGD会在鞍点周围来回震荡

在这里插入图片描述

代码

2. Momentum

在这里插入图片描述

加速训练过程
解决 SGD 在 ravines 的情况下容易被困住, 就像一个深谷, SGD可能会在两侧左右横跳而达不到低谷

在这里插入图片描述

2.1 Simple momentum update

回顾一下普通的SGD
$\theta=\theta-\eta \nabla_{\theta} J(\theta)$

加了动量后的SGD PLUS！！！
$\begin{array}{l} v_{i}=\gamma v_{i-1}+\eta \nabla_{w} J(w) \\ w=w-v_{i} \end{array}$
这里 $v$ 初始为0, $\gamma$ 为其中一个超参, 一般设定为 $0.9$ (参照上动态图)

优势 — 减少震荡, 跳出 ravines

劣势 — 一定程度上还是比较随机, 只是沿着梯度改变的方向前进

2.2 Nesterov momentum update (Nesterov Accelerated Gradient) (NAG)

$\begin{array}{l} v_{i}=\gamma v_{i-1}+\eta \nabla_{w} J(w - \gamma v_{i-1}) \\ w=w-v_{i} \end{array}$

在这里插入图片描述

蓝线是 Momentum 的更新过程，在更新后的累计梯度后有一个明显的大跳跃

棕色线是 NAG 的更新过程，先是一段大跳跃(预测向量)，而后的红线是一段修正向量

在这里插入图片描述

红线是momentum , 蓝线是NAG

个人觉得这可以在更新梯度时遇到"上坡"前放缓脚步，别直接冲出去了XD

优势 — 更新速度可顺应梯度的变化而改变

劣势 — "学习率"还是一个固定值,

3. Adaptive learning rate optimization algorithm

从训练集中采包含 $m$ 个样本 $\left\{x^{(1)}, \ldots, x^{(m)}\right\}$ 的小批量，对应目标为 $y^{(i)}$

计算梯度
$\boldsymbol{g} \leftarrow \frac{1}{m} \nabla_{\boldsymbol{\theta}} \sum_{i} L\left(f\left(\boldsymbol{x}^{(i)} ; \boldsymbol{\theta}\right), \boldsymbol{y}^{(i)}\right)$

3.1 AdaGrad (Adaptive Subgradient)

在这里插入图片描述

$\begin{aligned} r_{i} &=r_{i-1}+g_{i}^{2} \\ \Delta w &=\frac{\eta}{\epsilon+\sqrt{r_{i}}} g_{i} \\ w &=w-\Delta w \end{aligned}$

其中 $\epsilon$ 是一个极小的正数，用来防止除以0, $g_{i}$ 指在 i 处的梯度, $g_{i}^{2}=g_{i} \odot g_{i}$

$\odot$ 指矩阵的 Hadamard product (哈达玛积), 即 $\left[\begin{array}{cccc} a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1 n} b_{1 n} \\ a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2 n} b_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} b_{m 1} & a_{m 2} b_{m 2} & \cdots & a_{m n} b_{m n} \end{array}\right]$

公式推导:
$r_{i}$ 展开可得：注意，i 从1开始
$\begin{aligned} r_{i} &=r_{i-1}+g_{i}^{2} \\ &=r_{i-2}+g_{i-1}^{2}+g_{i}^{2} \\ &=r_{0}+g_{1}^{2}+g_{2}^{2}+\cdots+g_{i}^{2} \\ &=r_{0}+\sum_{j=1}^{i} g_{j}^{2} \end{aligned}$