浅谈拉格朗日乘子法的数学推导

最新推荐文章于 2023-07-23 11:30:48 发布

原创

最新推荐文章于 2023-07-23 11:30:48 发布 · 3k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习

本文深入解析拉格朗日乘子法，探讨梯度与黑塞矩阵概念，讲解一元与多元函数极值判断，以及拉格朗日乘子法在最优化问题中的应用。

注数学系列为本人的学习笔记，水平有限，如有错误希望读者不吝指正。

拉格朗日乘子法（Lagrange Multiplier Method）是求解最优化问题的一个方法，在推导该方法之前，先来看几个基本概念。

梯度（gradient）

函数的梯度是由该函数的偏导数组成的向量，一元函数的梯度就是导数，函数的切线就是梯度的方向，二元函数的梯度是两个偏导数组成的向量，例如二元函数 $z = f (x, y)$ 可微，在点 $P_o$ 处存在偏导数 $f'_x, f'_y$ ，则称向量 $f'_x, f'_y)$ 为函数 $z$ 的梯度，记为 $\nabla z$ 。梯度的几何意义是函数变化率最大的方向。一元函数导数即为函数的变化率，沿切线的方向就是变化率最大的方向。二元函数中，由两个偏导数组成的向量的方向，即为梯度方向。因为二元函数的全微分形式为
$dz = f'_x(x,y)dx + f'_y(x,y)dy$ 则二元函数梯度为
$\nabla z = (f'_x(x,y), f'_y(x,y))$ 观察 $d z$ 的形式，我们发现 $d z$ 可记为 $∇z\nabla z$ 与 $(d x, d y)$ 的内积，即
$\nabla z \cdot (dx,dy) = (f'_x(x,y), f'_y(x,y)) \cdot (dx,dy) = f'_x(x,y)dx + f'_y(x,y)dy$ 微分就是近似计算
$\Delta z = f'_x(x,y)dx + f'_y(x,y)dy = \nabla z \cdot (\Delta x, \Delta y)$
我们知道两个向量内积的几何意义是两向量模长相乘再乘以这两个向量的夹角的余弦，即设 $a、b{\bf a 、b}$ 为两向量，其夹角为 $θ\theta$ ，则
${\bf a \cdot b} = ||{\bf a}|| \cdot||{\bf b}|| \cdot \cos \theta$ 我们记向量 $\nabla z$ 和向量 $(Δx,Δy)(\Delta x, \Delta y)$ 之间的夹角 $∠\angle$ 为 $α\alpha$ ，则
$\Delta z =\nabla z \cdot (\Delta x, \Delta y) = ||\nabla z|| \cdot ||(\Delta x, \Delta y)|| \cdot \cos \alpha$ 当固定 $∇z\nabla z$ 、 $Δx\Delta x$ 和 $Δy\Delta y$ 后， $∠α=0\angle \alpha = 0$ 时， $Δz\Delta z$ 最大，因此函数 $z$ 变化率最大的方向与 $(Δx,Δy)(\Delta x, \Delta y)$ 也就是其梯度的方向是一致的。当函数更多元时，可以证明梯度仍然是函数变化率最大的方向。

黑塞矩阵（Hessian Matrix）

是一个多元函数的二阶偏导数构成的矩阵，描述了该函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出，并以其名字命名。该矩阵在判定多元函数极值方面有非常重要的应用。
在工程实际问题的优化设计中，目标函数往往非常复杂，为了使问题简化，往往将目标函数在某点邻域内展开成泰勒多项式来逼近原函数。

二元函数黑塞矩阵

我们知道，若一元函数 $f (x)$ 在包含 $x=x^{(0)}$ 点的某个闭区间 $[a, b]$ 内有 $n$ 阶导数，并且在开区间 $(a, b)$ 上有 $n + 1$ 阶导数，则对闭区间 $[a, b]$ 上任意一点 $x$ ，则 $f (x)$ 在 $x^{(0)}$ 处有泰勒展开式
$\frac{f(x^{(0)})}{0!} + \frac{f'(x^{(0)})}{1!}(x-x^{(0)}) + \frac{f''(x^{(0)})}{2!}(x - x^{(0)}) + \cdots + \frac{f^{(n)}(x^{(0)})}{n!}(x - x^{(0)})^n + R_n(x)$ 其中， $f^{(n)}(x)$ 为 $f (x)$ 的 $n$ 阶导数， $R_n(x)$ 是泰勒展开式的余项，是 $x - x^{(0)})^{n+1}$ 的高阶无穷小。
类似一元函数，若二元函数 $f(x_1,x_2)$ 在点 $(x1(0),x2(0))(x^{(0)}_1, x^{(0)}_2)$ 的某个邻域内有 $n + 1$ 阶连续偏导数，令 $(x1(1),x2(1))(x^{(1)}_1, x^{(1)}_2)$ 为该邻域内任意一点，令 $Δx1=x1(1)−x1(0),Δx2=x2(1)−x2(0)\Delta x_1 = x^{(1)}_1-x^{(0)}_1, \quad \Delta x_2 = x^{(1)}_2-x^{(0)}_2$ 令 $\left.\frac{\partial f}{\partial x_1}\right|_{X^{(0)}} \ 为 \ \left.\frac{\partial f(x_1,x_2)}{\partial x_1}\right|_{(x^{(0)}_1, x^{(0)}_2)} \ 的简写形式$
则 $f(x_1, x_2)$ 在点 $(x1(1),x2(1))(x^{(1)}_1, x^{(1)}_2)$ 处有泰勒展开式
$f(x1,x2)=f(x1(0),x2(0))+11!∂f∂x1∣X(0)⋅Δx1+11!∂f∂x2∣X(0)⋅Δx2+12![∂2f∂x12∣X(0)⋅Δx12+2∂2f∂x1∂x2∣X(0)⋅Δx1Δx2+∂2f∂x22∣X(0)⋅Δx22]+⋯+1n![∑p=0n(np)Δx1pΔx2n−p⋅∂nf∂x1p∂x2n−p∣X(0)]+Rn(x)\begin{aligned} f(x_1, x_2) & = f(x^{(0)}_1, x^{(0)}_2) \\ & + \frac{1}{1!} \left.\frac{\partial f}{\partial x_1}\right|_{X^{(0)}} \cdot \Delta x_1 + \frac{1}{1!} \left.\frac{\partial f}{\partial x_2}\right|_{X^{(0)}} \cdot \Delta x_2 \\ & + \frac{1}{2!} \left[ \left.\frac{\partial^2 f}{\partial x^2_1}\right|_{X^{(0)}} \cdot \Delta x^2_1 + 2 \left.\frac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} \cdot \Delta x_1 \Delta x_2 + \left.\frac{\partial^2 f}{\partial x^2_2}\right|_{X^{(0)}} \cdot \Delta x^2_2 \right] \\ & + \cdots \\ & + \frac{1}{n!} \left[ \sum^n_{p=0} {n \choose p} \Delta x^p_1 \Delta x^{n-p}_2 \cdot \left.\frac{\partial^n f}{\partial x^p_1 \partial x^{n-p}_2}\right|_{X^{(0)}} \right] \\ & + R_n(x) \end{aligned}$ 其中， $R_n(x)$ 是泰勒展开式的余项，是 $(Δx1+Δx2)n+1(\Delta x_1 + \Delta x_2)^{n+1}$ 的高阶无穷小。
我们将上述二元函数泰勒展开式写成矩阵相乘的形式，令 $X=(x_1, x_2)$ ，则泰勒展开式的前几项可以写为
$f(X)=f(X(0))+11!(∂f∂x1∣X(0),∂f∂x2∣X(0))(Δx1Δx2)+12!(Δx1,Δx2)(∂2f∂x12∣X(0)∂2f∂x1∂x2∣X(0)∂2f∂x1∂x2∣X(0)∂2f∂x22∣X(0))(Δx1Δx2)+⋯\begin{aligned} f(X) & = f(X^{(0)}) \\ & + \frac{1}{1!} (\left.\frac{\partial f}{\partial x_1}\right|_{X^{(0)}} , \left.\frac{\partial f}{\partial x_2}\right|_{X^{(0)}}) \begin{pmatrix} \Delta x_1 \\[2ex] \Delta x_2 \end{pmatrix} \\ & + \frac{1}{2!} (\Delta x_1, \Delta x_2) \begin{pmatrix} \left.\dfrac{\partial^2 f}{\partial x^2_1}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} \\[4ex] \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{X^{(0)}} & \left.\dfrac{\partial^2 f}{\partial x^2_2}\right|_{X^{(0)}} \end{pmatrix} \begin{pmatrix} \Delta x_1 \\[2ex] \Delta x_2 \end{pmatrix} \\ & + \cdots \end{aligned}$