梯度下降法浅析

最新推荐文章于 2024-11-02 14:44:43 发布

原创最新推荐文章于 2024-11-02 14:44:43 发布 · 922 阅读

0 ·

CC 4.0 BY-SA版权

math 专栏收录该内容

5 篇文章

订阅专栏

1 梯度方向对应函数增长最快方向

二维梯度定义
$grad⁡f(x0,y0)=∇f(x0,y0)=fx(x0,y0)i+fy(x0,y0)j\operatorname{grad} f\left(x_{0}, y_{0}\right)=\nabla f\left(x_{0}, y_{0}\right)=f_{x}\left(x_{0}, y_{0}\right) \boldsymbol{i}+f_{y}\left(x_{0}, y_{0}\right) \boldsymbol{j}$ 是一个向量。
其方向如下图所示：其方向与势场（图中闭合曲线为等势线，也是曲面在平面上的投影）的法向量相同。
在这里插入图片描述
其中
$∇=∂∂xi+∂∂yj\nabla=\frac{\partial}{\partial x} \boldsymbol{i}+\frac{\partial}{\partial y} \boldsymbol{j}$ 是向量微分算子或 Nobla 算子。

举一个特例来验证一下:
$y)=z=\sqrt{x^{2}+y^{2}}$
画出旋转锥面 3d 图(z>=0,故实际图是 xOy 平面上半部分)
画出 f(x,y)=1 和 f(x,y)=4 在 xOy 平面上的投影是两个同心圆
在这里插入图片描述

求出梯度 $∇f(x,y)=xx2+y2i+yx2+y2j\nabla f(x, y)=\frac{x}{\sqrt{x^{2}+y^{2}}} \boldsymbol{i}+\frac{y}{\sqrt{x^{2}+y^{2}}} \boldsymbol{j}$
$∇f(22,22)=22i+22j\nabla f\left(\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}\right)=\frac{\sqrt{2}}{2} \boldsymbol{i}+\frac{\sqrt{2}}{2} \boldsymbol{j}$
$∇f(−22,22)=−22i+22j\nabla f\left(-\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}\right)=-\frac{\sqrt{2}}{2} \boldsymbol{i}+\frac{\sqrt{2}}{2} \boldsymbol{j}$
从投影图上可以看出梯度方向(红色箭头所示)是函数在该点增长最快方向。
同理 $y)=z=-\sqrt{x^{2}+y^{2}}$ 投影与上一致，但是梯度方向相反。
在这里插入图片描述

2 梯度计算算法

由 1 可知梯度方向是函数投影的方向
定义如下图函数 $f(x)=x^{2}$ 求出 f(1)处下降梯度
$x1=x0−α∇f(x0)x_{1}=x_{0}-\alpha \nabla f\left(x_{0}\right)$
$f(x1)=f(x0−α∇f(x0))f\left(x_{1}\right)=f\left(x_{0}-\alpha \nabla f\left(x_{0}\right)\right)$
$ε=f(x1)−f(x0)=f(x0−α∇f(x0))−f(x0)\varepsilon=f\left(x_{1}\right)-f\left(x_{0}\right)=f\left(x_{0}-\alpha \nabla f\left(x_{0}\right)\right)-f\left(x_{0}\right)$
在这里插入图片描述
$−∇f(x)=−∇x2=−2x-\nabla f(x)=-\nabla x^{2}=-2 x$
$−∇f(1)=−2-\nabla f(1)=-2$
其大小方向如上图所示
从图中可看出梯度下降法只有方向和模长变化趋势是可靠的，其模长大小（步长）并不可靠（跳过了最低点）这也是梯度下降法要加入学习速率的原因。

同理，二元函数的计算
$x1=x0−α∇f(x0,0),y1=y0−α∇f(0,y0)x_{1}=x_{0}-\alpha \nabla f\left(x_{0}, 0\right), y_{1}=y_{0}-\alpha \nabla f\left(0, y_{0}\right)$
$f(x1,y1)=f(x0−α∇f(x0,0),y0−α∇f(0,y0))f\left(x_{1}, y_{1}\right)=f\left(x_{0}-\alpha \nabla f\left(x_{0}, 0\right), y_{0}-\alpha \nabla f\left(0, y_{0}\right)\right)$
$ε=f(x1,y1)−f(x0,y0)=f(x0−α∇f(x0,0),y0−α∇f(0,y0))−f(x0,y0)\varepsilon=f\left(x_{1}, y_{1}\right)-f\left(x_{0}, y_{0}\right)=f\left(x_{0}-\alpha \nabla f\left(x_{0}, 0\right), y_{0}-\alpha \nabla f\left(0, y_{0}\right)\right)-f\left(x_{0}, y_{0}\right)$