机器学习数学基础：5.梯度

最新推荐文章于 2025-05-07 11:11:19 发布

@心都

最新推荐文章于 2025-05-07 11:11:19 发布

阅读量1.2k

点赞数 21

分类专栏：机器学习数学基础文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/m0_65104419/article/details/145305029

版权

机器学习数学基础专栏收录该内容

21 篇文章

订阅专栏

一、梯度的基本概念

在多元函数的分析中，梯度是一个核心概念，它为我们提供了一种描述函数在不同方向上变化情况的有力工具。

对于二元函数 $z = f (x, y)$ ，假设它在平面区域内具有连续的一阶偏导数，这是一个重要的前提条件，因为只有在这个条件下，我们才能使用梯度的概念来准确地描述函数的变化特性。

那么，对于平面区域内的任意一点 $P (x, y)$ ，梯度 $g r a df (x, y)$ 被定义为向量 $\frac{\partial f}{\partial x}\vec{i}+\frac{\partial f}{\partial y}\vec{j}$ 。这里的 $\vec{i}$ 是 $x$ 轴正方向的单位向量， $\vec{j}$ 是 $y$ 轴正方向的单位向量。

（一）偏导数的直观理解

对 $x$ 的偏导数 $\frac{\partial f}{\partial x}$ ：
- 想象一下，你站在一个由函数 $z = f (x, y)$ 所描述的曲面上，如果你只沿着 $x$ 轴的方向移动，而保持 $y$ 的值不变，函数值 $z$ 随 $x$ 的变化率就是 $\frac{\partial f}{\partial x}$ 。
- 例如，对于函数 $f(x, y)=x^{2}+2xy + y^{2}$ ，当我们对 $x$ 求偏导数时，根据求导的基本规则（对于 $x^n$ 的导数是 $nx^{n - 1}$ ，对于 $a x$ 的导数是 $a$ ，其中 $a$ 是常数），将 $y$ 看作常数，我们得到：
- $\frac{\partial f}{\partial x}=2x + 2y$ 。这意味着当你站在曲面上，仅在 $x$ 方向移动时，函数值的变化速度由 $2 x + 2 y$ 决定。
对 $y$ 的偏导数 $\frac{\partial f}{\partial y}$ ：
- 类似地，当你只沿着 $y$ 轴的方向移动，而保持 $x$ 的值不变时，函数值 $z$ 随 $y$ 的变化率就是 $\frac{\partial f}{\partial y}$ 。
- 对于函数 $f(x, y)=x^{2}+2xy + y^{2}$ ，对 $y$ 求偏导数，将 $x$ 看作常数，得到：
- $\frac{\partial f}{\partial y}=2x + 2y$ 。

二、梯度的推导过程

（一）梯度向量的构成

梯度将 $x$ 和 $y$ 方向上的变化信息结合起来，形成一个向量。对于函数 $z = f (x, y)$ ，它的梯度 $g r a df (x, y)$ 就是由 $x$ 方向的变化率 $\frac{\partial f}{\partial x}$ 和 $y$ 方向的变化率 $\frac{\partial f}{\partial y}$ 共同构成的向量，即：
- $y)=\frac{\partial f}{\partial x}\vec{i}+\frac{\partial f}{\partial y}\vec{j}$ 。
- 继续以 $f(x, y)=x^{2}+2xy + y^{2}$ 为例，在任意一点 $(x, y)$ 的梯度为：
- $2y)\vec{i}+(2x + 2y)\vec{j}$ 。

（二）梯度的计算示例

让我们更具体地计算函数 $f(x, y)=3x^{2}-4xy + 5y^{2}$ 在点 $(2, 3)$ 处的梯度：
- 首先，对 $x$ 求偏导数： $\frac{\partial f}{\partial x}=6x - 4y$ 。
- 然后，对 $y$ 求偏导数： $\frac{\partial f}{\partial y}=-4x + 10y$ 。
- 在点 $(2, 3)$ 处：
  - $\frac{\partial f}{\partial x}\big|_{(2,3)}=6\times2 - 4\times3=12 - 12 = 0$ 。
  - $\frac{\partial f}{\partial y}\big|_{(2,3)}=-4\times2 + 10\times3=-8 + 30 = 22$ 。
- 所以 $3)=0\vec{i}+22\vec{j}$ 。

三、梯度的几何意义

（一）方向的含义

梯度的方向具有重要的几何意义。它是函数在该点处方向导数取得最大值的方向，简单来说，就是函数在该点增长最快的方向。
- 想象你站在一个由函数 $z = f (x, y)$ 所描绘的三维曲面上，就像站在一座山上，梯度的方向就是从你所在位置出发，最陡峭的上山路径的方向。
- 以 $f(x, y)=x^{2}+y^{2}$ 为例，在点 $(1, 2)$ 处，梯度为 $2)=2\vec{i}+4\vec{j}$ 。这个向量所指的方向就是从点 $(1, 2)$ 出发，让函数值增加最快的方向。

（二）模的含义

梯度的模 $\vert grad f(x, y)\vert=\sqrt{(\frac{\partial f}{\partial x})^{2}+(\frac{\partial f}{\partial y})^{2}}$ 表示函数在梯度方向上的变化速率。
- 对于上面 $f(x, y)=x^{2}+y^{2}$ 在点 $(1, 2)$ 的例子，梯度的模为：
- $\vert grad f(1, 2)\vert=\sqrt{2^{2}+4^{2}}=\sqrt{4 + 16}=\sqrt{20}=2\sqrt{5}$ 。
- 这意味着，如果你沿着梯度方向走一小段距离 $h$ ，函数值大约会增加 $2\sqrt{5}h$ 。这就像你沿着最陡峭的山路走一小段距离，高度的增加量大约是 $2\sqrt{5}h$ 。

四、梯度与方向导数的关系

（一）方向导数的定义

方向导数是用来描述函数在某一指定方向上的变化率的。设 $\vec{e}=\cos\varphi\vec{i}+\sin\varphi\vec{j}$ 是一个单位向量，表示一个方向 $L$ （ $\varphi$ 是这个方向与 $x$ 轴正方向的夹角），函数 $z = f (x, y)$ 在点 $(x, y)$ 处沿方向 $L$ 的方向导数为 $\frac{\partial f}{\partial l}$ 。

（二）关系推导

根据向量的点积公式 $\vec{a}\cdot\vec{b}=\vert\vec{a}\vert\vert\vec{b}\vert\cos\theta$ （这里 $\vec{a}$ 和 $\vec{b}$ 是两个向量， $\theta$ 是它们之间的夹角），我们可以推导出方向导数与梯度的关系。
- 首先， $\frac{\partial f}{\partial l}$ 可以表示为：
- $\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}\cos\varphi+\frac{\partial f}{\partial y}\sin\varphi$ （这是因为我们将 $x$ 和 $y$ 方向上的变化率根据方向向量的分量 $\cos\varphi$ 和 $\sin\varphi$ 进行了组合）。
- 又因为 $y)=\frac{\partial f}{\partial x}\vec{i}+\frac{\partial f}{\partial y}\vec{j}$ 和 $\vec{e}=\cos\varphi\vec{i}+\sin\varphi\vec{j}$ ，所以：
- $\frac{\partial f}{\partial l}=grad f(x, y)\cdot\vec{e}$ 。
- 由于 $\vec{e}$ 是单位向量， $\vert\vec{e}\vert = 1$ ，根据向量点积公式可得：
- $\frac{\partial f}{\partial l}=\vert grad f(x, y)\vert\cos\theta$ ，其中 $\theta$ 是梯度向量 $g r a df (x, y)$ 和方向向量 $\vec{e}$ 的夹角。

（三）方向导数的计算示例

继续以 $f(x, y)=x^{2}+y^{2}$ 在点 $(1, 2)$ 为例，我们已经知道 $2)=2\vec{i}+4\vec{j}$ ，现在求在与 $x$ 轴正方向夹角为 $\frac{\pi}{3}$ 的方向上的方向导数（此时 $\cos\frac{\pi}{3}=\frac{1}{2}$ ， $\sin\frac{\pi}{3}=\frac{\sqrt{3}}{2}$ ）：
- $\frac{\partial f}{\partial l}=grad f(1, 2)\cdot\vec{e}$ 。
- 这里 $2)=2\vec{i}+4\vec{j}$ ， $\vec{e}=\frac{1}{2}\vec{i}+\frac{\sqrt{3}}{2}\vec{j}$ 。
- 所以 $\frac{\partial f}{\partial l}=(2\vec{i}+4\vec{j})\cdot(\frac{1}{2}\vec{i}+\frac{\sqrt{3}}{2}\vec{j})=2\times\frac{1}{2}+4\times\frac{\sqrt{3}}{2}=1 + 2\sqrt{3}$ 。

五、案例分析

（一）案例：山坡高度函数

假设我们用函数 $h(x, y)=x^{2}+y^{2}$ 来表示一个山坡的高度（ $x$ 和 $y$ 是平面上的位置坐标， $h$ 是高度）。

（二）计算梯度

首先求偏导数：
- $\frac{\partial h}{\partial x}=2x$ 。
- $\frac{\partial h}{\partial y}=2y$ 。
考虑在点 $(3, 4)$ 处的梯度：
- 在点 $(3, 4)$ 处， $\frac{\partial h}{\partial x}\big|_{(3,4)}=2\times3 = 6$ ， $\frac{\partial h}{\partial y}\big|_{(3,4)}=2\times4 = 8$ 。
- 所以 $4)=6\vec{i}+8\vec{j}$ 。

（三）几何解释

梯度方向：梯度向量 $6\vec{i}+8\vec{j}$ 的方向就是从点 $(3, 4)$ 出发，最陡峭的上山方向。
梯度模长： $\vert grad h(3, 4)\vert=\sqrt{6^{2}+8^{2}}=\sqrt{36 + 64}=10$ 。这意味着在这个最陡峭的上山方向上，高度的变化率是 $10$ 。也就是说，如果你沿着这个方向走一小段距离 $d$ ，高度大约会增加 $10 d$ 。
方向导数：假设你想知道在与 $x$ 轴正方向夹角为 $\frac{\pi}{4}$ 的方向上的山坡陡峭程度（即方向导数）， $\cos\frac{\pi}{4}=\sin\frac{\pi}{4}=\frac{\sqrt{2}}{2}$ 。
- 则方向导数为：
- $\frac{\partial h}{\partial l}=grad h(3, 4)\cdot\vec{e}$ 。
- 这里 $4)=6\vec{i}+8\vec{j}$ ， $\vec{e}=\frac{\sqrt{2}}{2}\vec{i}+\frac{\sqrt{2}}{2}\vec{j}$ 。
- 所以 $\frac{\partial h}{\partial l}=(6\vec{i}+8\vec{j})\cdot(\frac{\sqrt{2}}{2}\vec{i}+\frac{\sqrt{2}}{2}\vec{j})=6\times\frac{\sqrt{2}}{2}+8\times\frac{\sqrt{2}}{2}=7\sqrt{2}$ 。

六、更多维度的梯度

（一）三元函数的梯度

对于三元函数 $u = f (x, y, z)$ ，梯度的概念可以自然地推广。其梯度为 $z)=\frac{\partial f}{\partial x}\vec{i}+\frac{\partial f}{\partial y}\vec{j}+\frac{\partial f}{\partial z}\vec{k}$ ，其中 $\vec{k}$ 是 $z$ 轴正方向的单位向量。
- 例如，对于函数 $f(x, y, z)=x^{2}+y^{2}+z^{2}$ ：
- 对 $x$ 求偏导数： $\frac{\partial f}{\partial x}=2x$ 。
- 对 $y$ 求偏导数： $\frac{\partial f}{\partial y}=2y$ 。
- 对 $z$ 求偏导数： $\frac{\partial f}{\partial z}=2z$ 。
- 所以 $z)=2x\vec{i}+2y\vec{j}+2z\vec{k}$ 。

七、梯度的实际应用

（一）物理学中的应用：电场强度

在静电场中，电势 $U (x, y, z)$ 是一个三元函数，电场强度 $\vec{E}$ 与电势的关系是 $\vec{E}=-grad U$ 。
- 例如，对于简单的电势函数 $U(x, y, z)=x^{2}+y^{2}+z^{2}$ ，根据上述梯度公式可得：
- $2x\vec{i}+2y\vec{j}+2z\vec{k}$ 。
- 那么电场强度 $\vec{E}=-2x\vec{i}-2y\vec{j}-2z\vec{k}$ 。这意味着电场强度的方向是电势下降最快的方向，其大小反映了电势下降的速率，这对于理解电场的分布和电荷在电场中的运动至关重要。

（二）机器学习中的应用：梯度下降算法

在机器学习中，我们常常需要最小化一个代价函数 $J(\theta)$ （这里 $\theta$ 可以是多个参数组成的向量）。
- 梯度下降算法的核心思想是沿着代价函数的负梯度方向更新参数，因为梯度的反方向是函数下降最快的方向。
- 假设我们有代价函数 $J(\theta)=\theta_{1}^{2}+\theta_{2}^{2}$ ，它的梯度为 $J(\theta)=2\theta_{1}\vec{i}+2\theta_{2}\vec{j}$ 。
- 在迭代过程中，我们会根据公式 $\theta^{new}=\theta^{old}-\alpha grad J(\theta)$ 更新参数（ $\alpha$ 是学习率，是一个很小的正数，用于控制更新的步长）。
- 例如，初始参数 $\theta=(1, 2)$ ，学习率 $\alpha = 0.1$ ：
- 首先计算梯度 $2)=2\vec{i}+4\vec{j}$ 。
- 然后更新参数：
- $\theta^{new}=(1, 2)-0.1\times(2\vec{i}+4\vec{j})=(1 - 0.2, 2 - 0.4)=(0.8, 1.6)$ 。
- 通过多次迭代，我们可以逐步找到使代价函数最小的参数值，从而优化模型。