ML：梯度下降法/最速下降法

最新推荐文章于 2024-01-08 13:18:09 发布

微步_ym

最新推荐文章于 2024-01-08 13:18:09 发布

阅读量753

点赞数

CC 4.0 BY-SA版权

分类专栏： Machine Learning 文章标签：梯度下降法

本文链接：https://blog.youkuaiyun.com/yiminghd2861/article/details/84799870

Machine Learning 专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨了梯度下降法的基本原理与应用，这是一种广泛应用于无约束最优化问题的迭代算法，通过沿负梯度方向更新变量来最小化目标函数。

http://www.cnblogs.com/gongxijun/p/5890548.html
https://blog.youkuaiyun.com/u012795120/article/details/83862284

梯度下降法（Gradient Descent）或最速下降法（Steepest Descent）是求解无约束最优化问题的一种最常用的方法，有实现简单的有点。梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。

设 $f (x)$ 是 $R^n$ 上具有一阶连续偏导数的函数。要求解的无约束最优化问题是
$\underset{x\in R^{n}}{min} \quad f(x)$
$x^{*}$ 表示目标函数 $f (x)$ 的极小点。

梯度下降法是一种迭代算法，选取适当的初值 $x^{(0)}$ ，不断迭代，更新 $x$ 的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新 $x$ 的值，从而达到减少函数的目的。

由于 $f (x)$ 具有一阶连续偏导数，若第 $k$ 次迭代值为 $x^{(k)}$ ，则可将 $f (x)$ 在 $x^{(k)}$ 附近进行一阶泰勒展开：
$f(x)=f(x^{(k)}+g_k^T(x-x^{(k)}))$
这里， $g_k=g(x^{(k)})=\bigtriangledown f(x^{(k)})$ 为 $f (x)$ 在 $x^{(k)}$ 的梯度。

求处第 $k + 1$ 次迭代值 $x^{k+1}$ ：
$x^{k+1} \leftarrow x^{k}+\lambda_{k}p_{k}$

其中， $p_k$ 是搜索方向，取负梯度方向 $p_k=-\bigtriangledown f(x^{(k)})$ ， $\lambda_k$ 是步长，由一维搜索确定，即 $\lambda_k$ 使得
$f(x^{(k)}+\lambda_kp_k)=\underset{\lambda \geqslant 0}{min} f(x^{(k)}+\lambda p_k)$

梯度下降法算法如下：

输入：目标函数 $f (x)$ ，梯度函数 $g(x)=\bigtriangledown f(x)$ ，计算精度 $\varepsilon$ ；

输出： $f (x)$ 的极小点 $x^*$ 。

（1）取初始值 $x^{(0)}\in R^n$ ，置 $k = 0$
（2）计算 $f(x^{(k)})$
（3）计算梯度 $g_k=g(x^{(k)})$ ，当 $||g_k||<\varepsilon$ 时，停止迭代，令 $x^*=x^{(k)}$ ，否则，令 $p_k=-g(x^{(k)})$ ，求 $\lambda_k$ ，使
$f(x^{(k)}+\lambda_kp_k)=\underset{\lambda\geqslant 0}{min}f(x^{(k)}+\lambda p_k)$
（4）置 $x^{(k+1)}=x^{(k)}+\lambda_kp_k$ ，计算 $f(x^{k+1})$
当 $||f(x^{(k+1)})-f(x^{(k)})||<\varepsilon$ 或 $||x^{(k+1)}-x^{(k)}||<\varepsilon$ 时，表示满足计算精度 $\varepsilon$ ，则停止迭代，令 $x^*=x^{k+1}$
（5）否则，置 $k = k + 1$ ，转（3）.