Gradient Descent

最新推荐文章于 2025-03-27 13:48:48 发布

莱尼布鲁斯

最新推荐文章于 2025-03-27 13:48:48 发布

阅读量234

点赞数 1

分类专栏： Machine Learning\Deep Learning 文章标签： python 机器学习算法深度学习

本文链接：https://blog.youkuaiyun.com/qq_45769877/article/details/113836381

版权

Machine Learning\Deep Learning 专栏收录该内容

21 篇文章

订阅专栏

文章目录

梯度和学习率
数学依据
适应性学习率
- - AdaGrad
  - Stochastic Gradicent Descent
Feature Scaling

在回归问题中，需要解决下面的最优化问题：

$\theta^∗= \underset{ \theta }{\operatorname{arg\ min}} L(\theta)$

$L$ :lossfunction（损失函数）
$\theta$ :parameters（参数）

L指损失函数，评判预测模型的性能，比如均方误差MSE，平方误差SE

$\theta$ 指代损失函数中的参数，比如线性回归中的 $w$ 和 $b$ 。

目的是要找一组参数 $\theta$ ，让损失函数（在training data上的值）越小越好，这个问题可以用梯度下降法解决：

假设 $\theta$ 是参数的集合：Suppose that $\theta$ has two variables $\left\{\theta_{1}, \theta_{2}\right\}$

随机选取一组起始的参数：Randomly start at $\theta^{0}=\left[\begin{array}{l}{\theta_{1}^{0}} \\ {\theta_{2}^{0}}\end{array}\right] \quad$

计算 $\theta$ 处的梯度gradient： $\nabla L(\theta)=\left[\begin{array}{l}{\partial L\left(\theta_{1}\right) / \partial \theta_{1}} \\ {\partial L\left(\theta_{2}\right) / \partial \theta_{2}}\end{array}\right]$

$\left[\begin{array}{l}{\theta_{1}^{1}} \\ {\theta_{2}^{1}}\end{array}\right]=\left[\begin{array}{l}{\theta_{1}^{0}} \\ {\theta_{2}^{0}}\end{array}\right]-\eta\left[\begin{array}{l}{\partial L\left(\theta_{1}^{0}\right) / \partial \theta_{1}} \\ {\partial L\left(\theta_{2}^{0}\right) / \partial \theta_{2}}\end{array}\right] \Rightarrow \theta^{1}=\theta^{0}-\eta \nabla L\left(\theta^{0}\right)$

$\left[\begin{array}{c}{\theta_{1}^{2}} \\ {\theta_{2}^{2}}\end{array}\right]=\left[\begin{array}{c}{\theta_{1}^{1}} \\ {\theta_{2}^{1}}\end{array}\right]-\eta\left[\begin{array}{c}{\partial L\left(\theta_{1}^{1}\right) / \partial \theta_{1}} \\ {\partial L\left(\theta_{2}^{1}\right) / \partial \theta_{2}}\end{array}\right] \Rightarrow \theta^{2}=\theta^{1}-\eta \nabla L\left(\theta^{1}\right)$

梯度和学习率

参数 $\theta$ 的变化: $\theta^{n+1} = \theta^{n}-\eta \nabla L( \theta^{n})$ 由两个因素组成一个是学习率 $\eta$ 一个是梯度 $\nabla L( \theta^{n})$ ；梯度主要决定梯度下降的方向，学习率决定在下降方向上走多长的路。
梯度

学习率

若学习率适合，会比较顺利地到达到损失函数的局部最小值，若学习率太小；虽然最后能够走到局部最小的地方，但是它可能会走得非常慢；若学习率太大，可能会在“山谷”的上振荡；若学习率非常大，使得loss穿过“山谷”到达太远的地方。

数学依据

泰勒表达式

$h(x)=\sum\limits_{k=0}^\infty \frac{h^{(k)}(x_0)}{k!}(x-x_0)^k=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+...$

$h(x_0+\Delta x)=\sum\limits_{k=0}^\infty \frac{h^{(k)}(x_0)}{k!}(\Delta x)^k=h(x_0)+h'(x_0)(\Delta x)+\frac{h''(x_0)}{2!}(\Delta x)^2+...$

一元函数： $x\to x_0$ , $h(x)=h(x_0)+h'(x_0)(x-x_0)+o(x-x_0)$

二元函数： $x\to x_0$ 并且 $y\to y_0$ ， $h(x,y)=h(x_0,y_0)+\frac{\partial h(x_0,y_0)}{\partial x}(x-x_0)+\frac{\partial h(x_0,y_0)}{\partial y}(y-y_0)+o(x-x_0)+o(y-y_0)$

证明：梯度下降的参数变化会导致损失值下降

梯度下降的参数变化: $\theta^{n+1} = \theta^{n}-\eta \nabla L( \theta^{n})$

$L(\theta^{n+1})=L(\theta^{n}-\eta \nabla L( \theta^{n}))\\\quad \quad \quad \quad=L(\theta^{n})+\nabla L( \theta^{n})(-\eta \nabla L( \theta^{n}))+o(-\eta \nabla L( \theta^{n}))\\\quad \quad \quad \quad=L(\theta^{n})-\eta(\nabla L( \theta^{n}))^2+o(-\eta \nabla L( \theta^{n}))$

在 $\eta \nabla L( \theta^{n}))\to0$ 的时候， $\eta(\nabla L( \theta^{n}))^2>0$ ， $o(-\eta \nabla L( \theta^{n}))$ 可忽略，最终使得 $L(\theta^{n+1})<L(\theta^{n})$ 。也就是说，在学习率和梯度的乘积 $\eta \nabla L( \theta^{n})$ 趋于0时，梯度下降法使得损失值下降，更一般的说这个值在一定限度内会保证损失值下降。

适应性学习率

通常的梯度下降形式：
$\theta^{t+1} \leftarrow \theta^t -ηg^t$

$g^t =\frac{\partial L(\theta^t)}{\partial \theta}$
$\eta$ 为初始设置的常数

简单的Adaptive Learning rate

简单的方法：随着次数的增加，逐渐降低学习率

$\eta^t =\frac{\eta^t}{\sqrt{t+1}}，t 是迭代次数$

初始，离局部最低点比较远，使用大一点的学习率
随着迭代增加，离局部最低点越近，因而减少学习率

AdaGrad

$\theta^{t+1} \leftarrow \theta^t -\frac{η^t}{\sigma^t}g^t$

$g^t =\frac{\partial L(\theta^t)}{\partial \theta}$
$\eta^t =\frac{\eta^t}{\sqrt{t+1}}$
$\sigma^t=\sqrt{\frac{1}{1+t}\sum\limits_{i=0}^{t}(g^i)^2}$ ，将此前所计算的所有梯度值取均方

化简后
$\theta^{t+1}=\theta^t-\frac{\eta}{\sqrt{\sum\limits_{i=0}^t(g^i)^2}} g^t$

$g^t =\frac{\partial L(\theta^t)}{\partial \theta}$
$\eta$ 为初始设置的常数

反差效果

Adagrad考虑的是当迭代越深入，则更新幅度越小，最终趋向于0；并且，使某次变动大的参数更加平滑，造成反差效果。

估测二次微分值，寻找最优参数更新

以二次函数 $y=ax^2+bx+c$ 举例

其最小值 $x=-\frac{b}{2a}$ ，对于任意一点 $x_0$ ，它迈出最好的步伐长度是 $|x_0+\frac{b}{2a}|=|\frac{2ax_0+b}{2a}|$ (直接迈到最小值点)，而该函数的一阶和二阶导数 $y^{'} = 2 a x + b$ 、 $y^{''} = 2 a$ ，可以发现最好的一步是 $|\frac{y'}{y''}|$ 。