为什么局部下降最快的方向就是梯度的负方向?

红色石头的个人网站:redstonewill.com

什么是梯度?

对于梯度下降算法(Gradient Descent Algorithm),我们都已经很熟悉了。无论是在线性回归(Linear Regression)、逻辑回归(Logistic Regression)还是神经网络(Neural Network)等等,都会用到梯度下降算法。我们先来看一下梯度下降算法的直观解释:

假设我们位于黄山的某个山腰处,山势连绵不绝,不知道怎么下山。于是决定走一步算一步,也就是每次沿着当前位置最陡峭最易下山的方向前进一小步,然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去,一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度?通俗来说,梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在当前位置的导数。

\nabla=\frac{df(\theta)}{d\theta}

上式中,\theta是自变量,f(\theta)是关于\theta的函数,\theta表示梯度。

梯度下降算法

如果函数f(\theta)是凸函数,那么就可以使用梯度下降算法进行优化。梯度下降算法的公式我们已经很熟悉了:

\theta=\theta_0-\eta\cdot\nabla f(\theta_0)

其中,\theta_0是自变量参数,即下山位置坐标,\eta是学习因子,即下山每次前进的一小步(步进长度),\theta是更新后的\theta_0,即下山移动一小步之后的位置。

梯度下降算法的公式非常简单!但是”沿着梯度的反方向(坡度最陡)“是我们日常经验得到的,其本质的原因到底是什么呢?为什么局部下降最快的方向就是梯度的负方向呢?也许很多朋友还不太清楚。没关系,接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

一阶泰勒展开式

这里需要一点数学基础,对泰勒展开式有些了解。简单地来说,泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例:

f(\theta)\approx f(\theta_0)+(\theta-\theta_0)\cdot\nabla f(\theta_0)

不懂上面的公式?没有关系。我用下面这张图来解释。

凸函数f(\theta)的某一小段[\theta_0,\theta]由上图黑色曲线表示,可以利用线性近似的思想求出f(\theta)的值,如上图红色直线。该直线的斜率等于f(\theta)\theta_0处的导数。则根据直线方程,很容易得到f(\theta)的近似表达式为:

f(\theta)\approx f(\theta_0)+(\theta-\theta_0)\cdot\nabla f(\theta_0)

这就是一阶泰勒展开式的推导过程,主要利用的数学思想就是曲线函数的线性拟合近似。

梯度下降数学原理

知道了一阶泰勒展开式之后,接下来就是重点了!我们来看一下梯度下降算法是如何推导的。

先写出一阶泰勒展开式的表达式:

f(\theta)\approx f(\theta_0)+(\theta-\theta_0)\cdot\nabla f(\theta_0)

其中,\theta-\theta_0是微小矢量,它的大小就是我们之前讲的步进长度\eta,类比于下山过程中每次前进的一小步,\eta为标量,而\theta-\theta_0的单位向量用v表示。则\theta-\theta_0可表示为:

\theta-\theta_0=\eta v

特别需要注意的是,\theta-\theta_0不能太大,因为太大的话,线性近似就不够准确,一阶泰勒近似也不成立了。替换之后,f(\theta)的表达式为:

f(\theta)\approx f(\theta_0)+\eta v\cdot\nabla f(\theta_0)

重点来了,局部下降的目的是希望每次\theta更新,都能让函数值f(\theta)变小。也就是说,上式中,我们希望f(\theta)<f(\theta_0)。则有:

f(\theta)-f(\theta_0)\approx\eta v\cdot\nabla f(\theta_0)<0

因为\eta为标量,且一般设定为正值,所以可以忽略,不等式变成了:

v\cdot\nabla f(\theta_0)<0

上面这个不等式非常重要!v\nabla f(\theta_0)都是向量,\nabla f(\theta_0)是当前位置的梯度方向,v表示下一步前进的单位向量,是需要我们求解的,有了它,就能根据\theta-\theta_0=\eta v确定\theta值了。

想要两个向量的乘积小于零,我们先来看一下两个向量乘积包含哪几种情况:

AB均为向量,\alpha为两个向量之间的夹角。AB的乘积为:

A\cdot B=||A||\cdot||B||\cdot cos(\alpha)

||A||||B||均为标量,在||A||||B||确定的情况下,只要cos(\alpha)=-1,即AB完全反向,就能让AB的向量乘积最小(负最大值)。

顾名思义,当v\nabla f(\theta_0)互为反向,即v为当前梯度方向的负方向的时候,能让v\cdot\nabla f(\theta_0)最大程度地小,也就保证了v的方向是局部下降最快的方向。

知道v\nabla f(\theta_0)的反方向后,可直接得到:

v=-\frac{\nabla f(\theta_0)}{||\nabla f(\theta_0)||}

之所以要除以\nabla f(\theta_0)的模||\nabla f(\theta_0)||,是因为v是单位向量。

求出最优解v之后,带入到\theta-\theta_0=\eta v中,得:

\theta=\theta_0-\eta\frac{\nabla f(\theta_0)}{||\nabla f(\theta_0)||}

一般地,因为||\nabla f(\theta_0)||是标量,可以并入到步进因子\eta中,即简化为:

\theta=\theta_0-\eta\nabla f(\theta_0)

这样,我们就推导得到了梯度下降算法中\theta的更新表达式。

总结

我们通过一阶泰勒展开式,利用线性近似和向量相乘最小化的思想搞懂了梯度下降算法的数学原理。也许你之前很熟悉梯度下降算法,但也许对它的推导过程并不清楚。看了本文,你是否有所收获呢?

阅读原文:简单的梯度下降算法,你真的懂了吗?

更多机器学习资源,请关注公众号:AI有道(ID:redstonewill)

<think>好的,用户想了解梯度下降算法的基本概念、梯度方向以及它求导的关系。首先,我需要整理梯度下降的核心定义。梯度下降是一种迭代优化算法,用于寻找函数的最小值。关键在于梯度,也就是函数在某点的方向导数最大的方向,这个方向就是函数上升最快方向,而梯度方向则是下降最快的。接下来,用户可能想知道梯度方向的具体定义,这里需要解释梯度的数学表达式,比如对于多元函数,梯度是各个偏导数组成的向量,并说明梯度方向的意义。 然后,梯度下降求导的关系,要区分清楚。求导是单变量函数的变化率,而梯度是多变量函数的推广,梯度下降利用梯度信息来更新参数。需要强调梯度下降是一种应用,而求导是数学基础。用户提到的机器学习优化方法,可以联系引用中的内容,比如引用[1]提到梯度下降用于求解最小二乘问题和模型参数,以及随机梯度下降和批量梯度下降的区别,引用[2]中的不同梯度下降算法如FG、SG等,可以适当引用这些来增强回答的权威性。 用户可能还希望了解具体步骤,比如迭代公式、学习率的作用,以及可能的问题如局部最优和学习率选择。这部分需要结构清晰,分点说明。同时,考虑用户可能的后续问题,比如优化方法比较、学习率调整策略等,可以提前准备相关问题,方便用户深入。 需要检查LaTeX格式是否正确,所有数学表达式用$...$,例如参数更新公式$\theta_{t+1} = \theta_t - \eta \nabla J(\theta_t)$。确保引用标注正确,如引用[^1]、[^2]在适当的位置。最后,生成的相关问题要围绕梯度下降的变体、应用实例、其他方法对比等,帮助用户进一步探索。</think>### 梯度下降算法详解 #### 一、基本概念 梯度下降(Gradient Descent)是一种迭代优化算法,用于寻找可微函数的局部最小值。其核心思想是:**沿函数在当前点的梯度方向逐步调整参数,直到收敛到最小值**。公式为: $$\theta_{t+1} = \theta_t - \eta \nabla J(\theta_t)$$ 其中$\eta$是学习率(步长),$\nabla J(\theta_t)$是目标函数$J$在$\theta_t$处的梯度。 #### 二、梯度方向定义 梯度(Gradient)是多变量函数的一阶导数推广,定义为: $$\nabla f(x_1, x_2, ..., x_n) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n} \right)$$ 梯度方向是**函数在该点上升最快方向**,而梯度方向则是下降最快方向[^3]。 #### 三、梯度下降求导的区别 | **维度** | **求导** | **梯度下降** | |----------------|-----------------------------|---------------------------------| | 适用范围 | 单变量/多变量函数 | 多变量优化问题 | | 核心作用 | 计算瞬时变化率 | 迭代寻找函数最小值 | | 数学工具 | 导数是标量/向量 | 梯度是向量,包含所有偏导数信息 | | 应用场景 | 分析函数特性(极值、拐点等) | 机器学习参数优化、工程最优化问题 | #### 四、机器学习中的优化方法 1. **批量梯度下降(BGD)**:使用全部样本计算梯度,收敛稳定但计算量大 2. **随机梯度下降(SGD)**:每次随机选一个样本更新参数,计算快但波动大 3. **小批量梯度下降(MBGD)**:折中方案,使用小批量样本计算梯度 #### 五、关键问题解决方案 1. **局部最优**:可通过随机初始化、动量法缓解 2. **学习率选择**:常用自适应学习率算法(如Adam) 3. **收敛判断**:梯度模长小于阈值或损失函数变化量趋近于零
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值