梯度的概念及其应用

大大怪灬

已于 2025-01-21 23:44:16 修改

阅读量1k

点赞数 13

分类专栏：杂七杂八文章标签：线性代数

于 2025-01-21 23:37:15 首次发布

本文链接：https://blog.youkuaiyun.com/m0_63069807/article/details/145292240

版权

杂七杂八专栏收录该内容

3 篇文章

订阅专栏

梯度

一. 梯度的定义
二. 梯度下降
三. 梯度下降的改进算法

首先，从直观的角度理解这个概念。想象你站在一座山的某个位置，这座山的地形可以用一个二元函数

z = f (x, y)

来表示。普通的偏导数就像是你只能沿着正东方向（

x

轴）或正北方向（

y

轴）移动时，海拔的变化率。但实际上，你完全可以朝任意方向行走，比如东北方向。这时，你就需要方向导数来描述沿着这个任意方向时函数值的变化率。

在这里插入图片描述

数学化地说，方向导数是函数在某一点沿着特定方向的变化率。如果我们用单位向量 $(\cos \alpha, \sin \alpha)$ 来表示方向，那么函数 $f (x, y)$ 在点 $x_0, y_0)$ 沿着向量 $l$ 的方向导数可以表示为：
$\frac{{\partial f}}{{\partial l}}= \mathop {\lim}\limits_{t \to 0} \frac{f (x_0+t \cos \alpha,y_0+t \sin \alpha)-f(x_0,y_0)}{t}$
它描述的是一个很自然的过程：我们沿着方向 $l$ 走一小段距离 $t$ ，看看函数值的变化与这段距离的比值在 $t$ 趋近于 $0$ 时的极限。

如果函数在该点可微，方向导数可以用偏导数来表示：
$\frac{{\partial f}}{{\partial l}}=\frac{{\partial f}}{{\partial x}} \cos \alpha + \frac{{\partial f}}{{\partial l}} \sin \alpha$
即任意方向的变化率都可以由最基本的 $x$ 方向和 $y$ 方向的变化率组合而成。如果熟悉向量的点积，就会发现这实际上就是梯度向量与方向向量的点积：
$\frac{{\partial f}}{{\partial l}}=\nabla f \cdot l$
方向导数将偏导数的概念推广到了任意方向，而梯度则自然地统一了所有方向的变化率。

一. 梯度的定义

对于一个多元函数 $f(x_1, x_2, ..., x_n)$ ，它在某点 $P$ 处的各个偏导数描述了函数在该点沿着各个坐标轴方向的变化率。由这些偏导数组成的向量即这个点的梯度：
${\nabla _{\boldsymbol{x}}}f = {(\frac{{\partial f}}{{\partial {x_1}}},\frac{{\partial f}}{{\partial {x_2}}},\frac{{\partial f}}{{\partial {x_3}}} \cdots \frac{{\partial f}}{{\partial {x_n}}})^T}$

几何意义：梯度向量的方向指向函数在该点增长最快的方向。这很像在山地上寻找最陡峭的上坡方向——如果你站在山的某处，梯度就指向你脚下最陡的上坡方向（注意这里指的上坡方向并不是说在这个点的一个切线方向，而是人要面对的方向，也就是平行于地面的一个方向）。而梯度向量的长度则表示了这个最大变化率的大小。
等高线（面）的关系：在二维或高维空间中，梯度向量总是与等高线（面）正交。这就解释了为什么梯度指向最陡峭的方向——因为它选择了与等高线最"不平行"的方向。

$e g :$

假设有一个函数 $f(x,y)=x^2 + 2y^2$

在点 $(1, 1)$ 处，其梯度为 $(2, 4)$ ，即

这说明，在点 $(1, 1)$ 处，函数沿着向量 $(2, 4)$ 方向增长最快，而增长率正是这个向量的长度 $\sqrt{2^2 + 4^2} = 2\sqrt{5}$ 。

在机器学习中我们还会经常遇到自变量和函数值都是向量的函数，称为向量值函数。设 $\boldsymbol{f}:\mathbb{R}^n \to \mathbb{R}$ 是向量值函数，那么函数值的每一维都是一个 $n$ 元标量函数 (即有 $n$ 个未知数):
$\boldsymbol{f(x)}=(f_1(x_1,...,x_n),f_2(x_1,...,x_n),f_n(x_1,...,x_n))^T$
$\textcolor{red}{eg}:$
$\boldsymbol{f(x)}=\left({\begin{aligned} & a_{11} x_1+a_{12} x_2+\cdots+a_{1 n} x_n \\ & a_{21} x_1+a_{22} x_2+\cdots+a_{2 n} x_n \\ & \vdots \\ & a_{n 1} x_1+a_{n 2} x_2+\cdots+a_{n n} x_n \end{aligned}} \right)$
向量值函数求导结果为矩阵，称为雅可比矩阵（Jacobian matrix），通常用 $\boldsymbol{ \nabla f}$ 或者 $\boldsymbol{J}_f$ 表示。设 $\boldsymbol{f}:\mathbb{R}^n \to \mathbb{R}$ ，其对自变量 $\boldsymbol{x}$ 的梯度是一个 $\times n$ 维的矩阵:

$\nabla_{\boldsymbol{x}} \boldsymbol{f} = \left(\begin{array}{c} \nabla_{\boldsymbol{x}}^{\mathrm{T}} \boldsymbol{f}_1 \\ \vdots \\ \nabla_{\boldsymbol{x}}^{\mathrm{T}} \boldsymbol{f}_m \end{array}\right) = \left(\begin{array}{ccc} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \vdots & & \vdots \\ \frac{\partial f_m}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_n} \end{array}\right)$
其中 $\nabla^T$ 表示先求梯度再转置

如果对梯度 $\nabla f$ 再求一次梯度，得到的矩阵就称为的海瑟矩阵（Hessian matrix）：
$\boldsymbol{H}_f=\nabla^2 f(\boldsymbol{x})=\left(\begin{array}{ccc} \frac{\partial^2 f}{\partial x_1^2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \vdots & & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{array}\right)$

二. 梯度下降

2.1 梯度下降的定义

梯度下降 (Gradient Descent) 是机器学习中用于优化目标函数（通常是损失函数）的核心算法。其核心思想是通过迭代调整模型参数，沿着目标函数梯度的反方向逐步逼近最小值点。

假设目标函数为 $J(\theta)$ ，其中 $\theta$ 是模型参数。梯度下降的目标是找到使得最小 $J(\theta)$ 的 $\theta$ 。通过以下步骤实现：

初始化参数：随机或指定初始值 $\theta_0$ 。
计算梯度：找到当前参数 $\theta$ 处的梯度 $\nabla J(\theta)$ 。

$\nabla J(\theta)={(\frac{{\partial f}}{{\partial {\theta_1}}},\frac{{\partial f}}{{\partial {\theta_2}}},\frac{{\partial f}}{{\partial {\theta_3}}} \cdots \frac{{\partial f}}{{\partial {\theta_n}}})^T}$

更新参数：沿梯度反方向调整参数，即 $\theta_{new}=\theta_{old}-\eta \nabla J(\theta)$ ，其中 $\eta$ 是学习率（步长）。
迭代：重复步骤2-3，直到收敛（如梯度接近零或达到最大迭代次数）。

$e g$ ：线性回归的梯度推导。

模型： $h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \ldots + \theta_n x_n$

损失函数（MSE）： $J(\theta) = \frac{1}{2m} \sum_{i=1}^m \left( h_\theta(x^{(i)}) - y^{(i)} \right)^2$

梯度计算： $\frac{\partial J}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^m \left( h_\theta(x^{(i)}) - y^{(i)} \right) x_j^{(i)}$

对所有参数 $\theta_j$ 计算偏导，得到梯度向量 $\nabla J(\theta)$

2.2 梯度下降的类型

批量梯度下降（Batch Gradient Descent, BGD）

公式：
$\theta_{\text{new}} = \theta_{\text{old}} - \eta \cdot \frac{1}{m} \sum_{i=1}^m \nabla J(\theta_{\text{old}}, x^{(i)}, y^{(i)})$

特点：

优点：稳定收敛，适用于凸函数。
缺点：计算开销大（每次迭代需遍历全部数据），不适合大规模数据。

随机梯度下降（Stochastic Gradient Descent, SGD）

公式：
$\theta_{\text{new}} = \theta_{\text{old}} - \eta \cdot \nabla J(\theta_{\text{old}}, x^{(i)}, y^{(i)})$

每次随机选取一个样本 $i$

特点：

优点：计算快，适合在线学习和非凸函数。
缺点：更新方向波动大，收敛路径不稳定。

小批量梯度下降（Mini-batch Gradient Descent）

公式：
$\theta_{\text{new}} = \theta_{\text{old}} - \eta \cdot \frac{1}{b} \sum_{i=1}^b \nabla J(\theta_{\text{old}}, x^{(i)}, y^{(i)})$

每次选取 $b$ 个样本，通常 $b = 32, 64, 128$

特点：

优点：平衡计算效率和稳定性（深度学习中的默认选择）。
缺点：需调参batch size。

2.3 学习率与收敛性

学习率 $\eta$ 的作用

过大：参数更新步幅过大，可能导致震荡甚至发散。
在这里插入图片描述
过小：收敛速度慢，易陷入局部极小值。

三. 梯度下降的改进算法

3.1 动量法

动量法通过在传统的梯度下降算法中引入“动量”概念来改变更新参数的方式。其核心思想是通过累积梯度的历史信息，来决定当前梯度的更新方向，从而加速收敛并避免陷入局部最优解。

想象一下正在滑雪。普通的梯度下降法就像是每一步都完全依据当前坡度来决定移动方向和距离。但实际滑雪时，你会带着之前运动产生的惯性继续前进。这就是动量法的核心思想 - 它不仅考虑当前的梯度，还会考虑之前的运动"惯性"。

从数学角度来看，动量法的更新规则是：

$v_{t+1}=\beta v_t+ \eta \nabla f(\boldsymbol x)$

$\theta_{t+1}=\theta_t-v_{t+1}$

其中：

$\beta$ 是动量系数，控制“记忆”对当前更新的影响程度。一般设定为接近于1，如0.9。
$v_t$ 是动量变量，表示上一次更新的“记忆”。

3.2 Adaptive Gradient (AdaGrad)

在传统的梯度下降中，所有参数使用相同的学习率。这就像是在登山时，无论地形如何，都用相同的步长走路。但实际上，有些参数可能需要更大的调整，有些则需要更小的调整。
在这里插入图片描述
AdaGrad的更新规则是：
$\theta_{i}(t+1)=\theta_i(t)-\frac{\eta}{\sqrt{g_i(t)+\varepsilon}}\nabla_{\theta_i}f_t$
其中：

$\eta$ 是全局学习率
$\nabla_{\theta_i}f_t$ 是函数相对于参数 $\theta_i$ 在 $t$ 时间步长的梯度。
$g_i(t)$ 是参数 $\theta_i$ 的累积梯度的平方和。

$g_i(1)=\sqrt{\frac{1}{2}(\nabla_{\theta_i}f^2_0+\nabla_{\theta_i}f^2_1)}$ ； $g_i(2)=\sqrt{\frac{1}{3}(\nabla_{\theta_i}f^2_0+\nabla_{\theta_i}f^2_1+\nabla_{\theta_i}f^2_2)}$
$\varepsilon$ 是一个小常数，用于避免除零错误。