梯度下降法学习笔记

最新推荐文章于 2025-05-30 08:02:22 发布

wolfrevoda

最新推荐文章于 2025-05-30 08:02:22 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： machine-learning 文章标签：梯度下降-机器学习

本文链接：https://blog.youkuaiyun.com/batuwuhanpei/article/details/51972171

machine-learning 专栏收录该内容

23 篇文章

订阅专栏

本文介绍了梯度下降法的基本原理及其应用。详细解释了梯度的概念，并通过数学推导证明了梯度方向是函数值变化最大的方向。同时，对比了批量梯度下降法和随机梯度下降法的不同之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们都知道梯度下降法是求解无约束最优化问题的最常用方法，可是为什么梯度下降可以用来求解最优化问题呢？梯度到底是什么？这里假设我们要解决一个最小值问题 $minf(x)$ ，当我们所研究的对象并不是一个凸函数或者即使是一个凸函数，但是计算量会非常的大，此时我们就会想能否有一种迭代的方法，当我们随机的选取一个点，我们以该点位为起点，然后沿着某个方向能够以最快的速度走到最小值点呢？基于这样的思路，我们首先来介绍到底什么是梯度。

梯度

在百度百科上给出的梯度公式为：

g r a d (t) = \nabla t = δ t δ x i + δ t δ y j + δ t δ z k

$grad(t) = \nabla t = \frac{\delta t}{\delta x}i + \frac{\delta t}{\delta y}j + \frac{\delta t}{\delta z}k$ 其中

i,j,k $i, j, k$ 为基向量，其也可以表示为

(δtδx,δtδy,δtδz) $(\frac{\delta t}{\delta x}, \frac{\delta t}{\delta y}, \frac{\delta t}{\delta z})$ 。通过上面的定义我们可以看到梯度是一个向量，是

t $t$ 在

(x,y,z) $(x,y,z)$ 点的一个方向，且沿着该方向是t值变化最大的方向。下面是对梯度为函数值变化最大的方向的证明：

梯度下降法

根据对上面梯度的介绍，我们知道梯度方向是函数值变化最大的方向，因此对于问题 $minf(X)$ ，我们只需要沿着负梯度方向不断对x进行修正即可以最快的速度下降到极小值点，这也是通常人们把梯度下降法等同于最速下降法的原因。下面给出梯度下降法的基本步骤：

随机选取初始节点 $X_0 = (x_0^1, x_0^2, ..., x_0^k)$ ；
求出函数 $f(X)$ 在 $X_i$ 点的梯度 $\nabla f = \frac{\delta f}{\delta X_i}$ ；
如果函数误差 $E(f(X_i), f(X_{i-1})) > \epsilon$ ，则依据梯度更新 $x i = x i - α \nabla f (x i)$ $x_i = x_i - \alpha\nabla f(x_i)$ 重复2,3步直到函数误差小于阈值 $\epsilon$ 。其中 $\alpha$ 为步长，用于控制每次下降的幅度，通常其值是逐渐递减的。

批量梯度下降与随机梯度下降

对于线性回归我们知道其模型为 $f_\Theta(X) = X^T\Theta$ ，那么其损失函数 $J(\Theta) = \frac{1}{2m}\sum_{i=1}^{m}(f_\Theta(x^i) - y^i)^2$ ，故 $\frac{\delta f}{\delta \Theta} = \frac{1}{m}\sum_{i=1}^{m}(f_\Theta(x^i)-y^i)x^i$

批量梯度下降
对于批量梯度下降，其对 $\Theta$ 的更新策略为 $θ t + 1 j = θ t j - 1 m \sum i = 1 m (f θ j (x i j) - y i) x i j$ $\theta_j^{t+1} = \theta_j^t - \frac{1}{m}\sum_{i=1}^{m}(f_{\theta_j} (x^i_j)-y^i)x^i_j$ 我们可以看到对于批量梯度下降，其每一次更新都要考虑所有的样本，当样本量很大的时候，这种更新的速度是非常慢的，那么我们就想能否每来一个样本我们就更新一次而不是等所有样本都到来才更新？
随机梯度下降
对于梯度下降，其更新策略不再是每次更新都考虑所有的样本，而是对每个样本，都对参数进行一次更新，其更新策略如下： $θ t + 1 j = θ t j - f θ j (x i j) - y i) x i j$ $\theta_j^{t+1} = \theta_j^t - f_{\theta_j} (x^i_j)-y^i)x^i_j$ 在这种情况下，我们可能只需要其中的一部分样本就可以让算法收敛到极值点。