机器学习高等数学基础——多元微分总结

最新推荐文章于 2023-03-06 19:56:30 发布

原创

最新推荐文章于 2023-03-06 19:56:30 发布 · 1.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #随机梯度下降 #牛顿迭代法 #Hessian矩阵

本文详细介绍了多元微分的基本概念，包括n维空间、二元函数、偏导数及其计算，以及方向导数、梯度和Hessian矩阵。此外，还探讨了函数的极值与最值，包括无条件极值和条件极值（拉格朗日乘子法），并讨论了基于梯度的优化方法，如梯度下降法和牛顿迭代法。这些理论在机器学习和最优化问题中有着广泛应用。

文章目录

多元微分求偏导

多元函数相关概念

n维空间

设 $n$ 为取定的一个正整数，我们用 $R^n$ 表示 $n$ 元有序实数组 $x_1,x_2,...,x_n)$ 的全体所构成的集合，即
$KaTeX parse error: Expected 'EOF', got '}' at position 88: \dots, i = 1,2,...,n}̲$
$R^n$ 中的元素 $x_1,x_2,...,x_n)$ 有时也用单个字母 $x$ 来表示，即 $x = (x_1,x_2,...,x_n)$ .当所有的 $x_i(i = 1,2,...,n)$ 都为零时，称这样的元素为 $R^n$ 中的零元，记为0或O。在解析几何中，通过直角坐标系， $R^2$ （或 $R^3$ ）中的元素分别与平面（或空间）中的点或向量建立一一对应的关系。
为了在集合 $R^n$ 中的元素之间建立联系，在 $R^n$ 中定义线性运算如下：
$(x_1 + y_1 , x_2 + y_2, ... , x_n + y_n) \\ \lambda x = (\lambda x_1, \lambda x_2, ..., \lambda x_n)$
这样定义了线性运算的集合 $R^n$ 称为 $n$ 维空间。
此外， $R^n$ 中点 $x$ 和点 $y$ 之间的距离，记作 $\rho = (x, y)$ ，规定
$\rho = (x, y) = \sqrt{ {(x_1 + y_1)}^2 + {(x_2 + y_2)}^2 + ... + {(x_n + y_n)}^2}$

二元函数

设 $D$ 是 $R^2$ 的一个非空子集，称映射 $f : D - > R$ 为定义在 $D$ 上的二元函数，通常记为
$\in D$
或
$\in D$

二元函数图像

求偏导数

个人理解：为什么要求偏导，而不是像在一元函数中那样求导数？在一元函数中，我们仅需要求解 $f (x)$ 对 $x$ 的导数即可获得函数的性态，因为此时 $f (x)$ 只与 $x$ 对应。而在多元函数（这里以二元函数为例）中， $f (x, y)$ 与 $x$ 和 $y$ 对应。观察下图，我们发现，此时， $M_0$ 点的方向不再固定，为了能够更好地描述函数性态，我们主要对 $x$ 和 $y$ 两个方向进行求导，也就是 $f (x, y)$ 分别对 $x$ 和 $y$ 求偏导数，类似于做降维处理（一元函数求导），简化了计算。当然，从数学角度讲，可能延伸到求二元极限（导数的定义）、求全微分等内容，这里不作展开。
偏导数定义如下图：

举例：求 $z = x^2 + 3xy + y^2$ 在点 $(1, 2)$ 处的偏导数。
把 $y$ 看做常数，得
$\frac{\partial z}{\partial x} = 2x + 3y$
把 $x$ 看做常数，得
$\frac{\partial z}{\partial y} = 3x + 2y$
将 $(1, 2)$ 带入上面结果即可求解。

二元函数图像

方向导数求梯度

在上一小节中，提到了多元函数求偏导时的方向问题。这里就引出了方向导数，那么方向导数可以理解为在函数定义域内的某一点，对该点的某一方向求得的导数。结合一元导数的意义（变化率），可以进一步理解为一个函数沿指定方向的变化率。
以下图为例，可以把它看作“山”的模型，而山的表面可以通过一个函数来表达。此时，我们在山上的某一点想要下山。在下山的过程中，我们总是有很多的方向（方向导数）可以选择，有的方向可以引导我们更快地下山，有的方向甚至可以引导我们上山，那么沿着哪个方向才是最快的下山路径？这就引出了梯度这一概念。
方向导数与梯度的关联

通过上面的例子，易知梯度是有方向的，它是一个向量，这与方向导数有本质的区别（方向导数本质上是数值，可以直观理解为“下山”例子中的“下山速度”）。
梯度表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（该梯度的方向）变化最快，变化率最大（该梯度的模）。
定义：设二元函数 $z = f (x, y)$ 在平面区域 $D$ 上具有一阶连续偏导数，则对于每一个点 $P (x, y)$ 都可定义出一个向量 $\{\frac{\partial f}{\partial x} , \frac{\partial f}{\partial y}\} = f_{x}(x,y)\boldsymbol{i} + f_{y}(x,y)\boldsymbol{j}$ ，该函数就称为函数 $z = f (x, y)$ 在点 $P (x, y)$ 的梯度，记为 $\boldsymbol{grad} {\,} f(x,y)$ 或 $\nabla {\,} f(x,y)$ 。
其中， $\nabla$ 称为（二维的）向量微分算子或Nabla算子。
举例：计算 $f(x,y) = x^2 + y^2$ 的梯度向量。

一阶偏导求Jacobian矩阵

假设𝐹:ℝ𝑛→ℝ𝑚是一个从 $n$ 维欧氏空间映射到 $m$ 维欧氏空间的函数。该函数由 $m$ 个实函数组成: $y_1(x_1, ... , x_n) , ... , y_m(x_1, ... , x_n)$ 。这些函数的偏导数（如果存在）可以组成一个 $m$ 行 $n$ 列的矩阵，这个矩阵就是所谓的Jacobian（雅可比）矩阵：
$\left[ \begin{matrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \end{matrix} \right]$

最低0.47元/天解锁文章