最速下降法——负梯度方向使函数值下降的证明

phoenix@Capricornus

于 2025-03-16 08:17:42 发布

阅读量1.1k

点赞数 15

分类专栏：模式识别中的数学问题文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/u013600306/article/details/146111540

版权

模式识别中的数学问题专栏收录该内容

41 篇文章

订阅专栏

梯度下降法（Gradient Descent）

定义

梯度下降法（gradient descent）或最速下降法（steepest descent）是求解无约束最优化问题的一种最常用的方法，具有实现简单的优点。梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。

目标函数

假设 $f({\bm x})$ 是 $\mathbb{R}^n$ 上具有一阶连续偏导数的函数。要求解的无约束最优化问题是：
$\min_{{\bm x} \in \mathbb{R}^n} f({\bm x})$
${\bm x}^*$ 表示目标函数 $f({\bm x})$ 的极小点。

迭代过程

梯度下降法是一种迭代算法。选取适当的初值 ${\bm x}^{(0)}$ ，不断迭代，更新 ${\bm x}$ 的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新 ${\bm x}$ 的值，从而达到减少函数值的目的。

泰勒展开

由于 $f({\bm x})$ 具有一阶连续偏导数，若第 $k$ 次迭代值为 ${\bm x}^{(k)}$ ，则可将 $f({\bm x})$ 在 ${\bm x}^{(k)}$ 附近进行一阶泰勒展开：
$f({\bm x}) = f({\bm x}^{(k)}) + {\bm g}_k^{\rm T} ({\bm x} - {\bm x}^{(k)})$
这里， ${\bm g}_k = \nabla f({\bm x}^{(k)})$ 为 $f({\bm x})$ 在 ${\bm x}^{(k)}$ 的梯度。

更新公式

求出第 $k + 1$ 次迭代值 ${\bm x}^{(k+1)}$ ：
${\bm x}^{(k+1)} = {\bm x}^{(k)} + \lambda_k {\bm p}_k$
其中， ${\bm p}_k$ 是搜索方向，取负梯度方向 ${\bm p}_k = -\nabla f({\bm x}^{(k)})$ ， $\lambda_k$ 是步长，

最小化条件
$\begin{aligned} f({\bm x}^{(k+1)}) &= f({\bm x}^{(k)}) + {\bm g}_k^{\rm T} ({\bm x}^{(k+1)} - {\bm x}^{(k)})\\ &= f({\bm x}^{(k)}) + {\bm g}_k^{\rm T} ({\bm x}^{(k+1)} - {\bm x}^{(k)})\\ &= f({\bm x}^{(k)}) - \lambda_k \|{\bm g}_k\|^2 \end{aligned}$
由于 $\lambda_k \|{\bm g}_k\|^2 \geqslant 0$ ，因此 $f({\bm x}^{(k+1)}) \leqslant f({\bm x}^{(k)})$ 。

精确一维搜索

由一维搜索确定，即 $\lambda_k$ 使得：
$f({\bm x}^{(k)} + \lambda_k {\bm p}_k) = \min_{\lambda \geqslant 0} f({\bm x}^{(k)} + \lambda {\bm p}_k)$

梯度下降法（Gradient Descent）

(1) 取初始值 ${\bm x}^{(0)} \in \mathbb{R}^n$ ，置 $k = 0$ 。
(2) 计算 $f({\bm x}^{(k)})$ 。
(3) 计算梯度 ${\bm g}_k = \nabla f({\bm x}^{(k)})$ ，当 $\| {\bm g}_k \| < \epsilon$ 时，停止迭代，令 ${\bm x}^* = {\bm x}^{(k)}$ ；否则，令 ${\bm p}_k = -\nabla f({\bm x}^{(k)})$ ，求 $\lambda_k$ ，使
$f({\bm x}^{(k)} + \lambda_k {\bm p}_k) = \min_{\lambda \geqslant 0} f({\bm x}^{(k)} + \lambda {\bm p}_k)$
(4) 置 ${\bm x}^{(k+1)} = {\bm x}^{(k)} + \lambda_k {\bm p}_k$ ，计算 $f({\bm x}^{(k+1)})$ 。
当 $\| f({\bm x}^{(k+1)}) - f({\bm x}^{(k)}) \| < \epsilon$ 或 $\| {\bm x}^{(k+1)} - {\bm x}^{(k)} \| < \epsilon$ 时，停止迭代，令 ${\bm x}^* = {\bm x}^{(k+1)}$ 。
(5) 否则，置 $k = k + 1$ ，转(3)。

当目标函数是凸函数时，梯度下降法的解是全局最优解。一般情况下，其解不保证是全局最优解。梯度下降法的收敛速度也未必是很快的。

解释

初始化：选择一个初始点 ${\bm x}^{(0)}$ 并设置迭代计数器 $k = 0$ 。
计算函数值：计算当前点 ${\bm x}^{(k)}$ 的函数值 $f({\bm x}^{(k)})$ 。
计算梯度：计算当前点 ${\bm x}^{(k)}$ 的梯度 ${\bm g}_k = g({\bm x}^{(k)})$ 。
- 如果梯度的模小于给定的阈值 $\varepsilon$ ，则停止迭代，并将当前点作为解 ${\bm x}^*$ 。
- 否则，确定搜索方向 ${\bm p}_k = -g({\bm x}^{(k)})$ ，并找到步长 $\lambda_k$ ，使得函数值最小。
更新点：更新点 ${\bm x}^{(k+1)} = {\bm x}^{(k)} + \lambda_k {\bm p}_k$ ，并计算新的函数值 $f({\bm x}^{(k+1)})$ 。
- 如果函数值的变化或点的变化小于给定的阈值 $\varepsilon$ ，则停止迭代，并将当前点作为解 ${\bm x}^*$ 。
迭代：继续迭代，直到满足停止条件。