为什么局部下降最快的方向就是梯度的负方向？

最新推荐文章于 2024-07-29 19:55:21 发布

转载最新推荐文章于 2024-07-29 19:55:21 发布 · 101 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://juejin.im/post/5aefab2851882522835e631c

文章标签：

#数据结构与算法 #人工智能

红色石头的个人网站：redstonewill.com

什么是梯度？

对于梯度下降算法（Gradient Descent Algorithm），我们都已经很熟悉了。无论是在线性回归（Linear Regression）、逻辑回归（Logistic Regression）还是神经网络（Neural Network）等等，都会用到梯度下降算法。我们先来看一下梯度下降算法的直观解释：

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度？通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在当前位置的导数。

上式中， $\theta$ 是自变量， $f(\theta)$ 是关于 $\theta$ 的函数， $\theta$ 表示梯度。

梯度下降算法

如果函数 $f(\theta)$ 是凸函数，那么就可以使用梯度下降算法进行优化。梯度下降算法的公式我们已经很熟悉了：

\theta=\theta_0-\eta\cdot\nabla f(\theta_0)

其中， $\theta_0$ 是自变量参数，即下山位置坐标， $\eta$ 是学习因子，即下山每次前进的一小步（步进长度）， $\theta$ 是更新后的 $\theta_0$ ，即下山移动一小步之后的位置。

梯度下降算法的公式非常简单！但是”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

一阶泰勒展开式

这里需要一点数学基础，对泰勒展开式有些了解。简单地来说，泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例：

f(\theta)\approx f(\theta_0)+(\theta-\theta_0)\cdot\nabla f(\theta_0)

不懂上面的公式？没有关系。我用下面这张图来解释。

凸函数 $f(\theta)$ 的某一小段 $[\theta_0,\theta]$ 由上图黑色曲线表示，可以利用线性近似的思想求出 $f(\theta)$ 的值，如上图红色直线。该直线的斜率等于 $f(\theta)$ 在 $\theta_0$ 处的导数。则根据直线方程，很容易得到 $f(\theta)$ 的近似表达式为：