机器学习（三）：拉格朗日乘子与梯度下降法

最新推荐文章于 2024-09-16 21:30:03 发布

原创

最新推荐文章于 2024-09-16 21:30:03 发布 · 1.4w 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文介绍了机器学习中的拉格朗日乘子法和梯度下降法。拉格朗日乘子法用于解决带有约束条件的优化问题，通过构造拉格朗日函数来转化原问题。梯度下降法是求解无约束优化问题的常用方法，包括标准梯度下降、随机梯度下降和Mini-batch梯度下降等，用于迭代寻找目标函数的最小值。

这里介绍两个在以后的机器学习算法中经常使用的技巧：拉格朗日乘子（Lagrange multiplier）和梯度下降法（Gradient descent）。

1. 拉格朗日乘子法

拉格朗日乘子被⽤于寻找多元变量在⼀个或者多个限制条件下的驻点。

1.1 等式约束条件

考虑这样一个问题：
求解 $f(x_1,x_2)$ 的最大值，其中x1和x2必须满足如下限制条件: $g(x_1,x_2)=0$ 。

求解方法1：将 $g(x_1,x_2)=0$ 转化为 $x_2=h(x_1)$ 带入f函数，然后使用微分法求解驻点 $x_1^*$ ，然后得到驻点 $x_2^*=h(x_1^*)$ 。
这种⽅法的⼀个问题是，把x2显式地表⽰为x1的函数，即找到限制⽅程的解析解很困难。并且，这种⽅法把x1和x2区别对待，这破坏了这些变量之间⾃然存在的对称性。

由此我们引入拉格朗日乘子法。

1.1.1 约束条件 $g(x)=0$ 的特性

设向量 $x\in R^D$ ，则 $g(x)=0$ 表示一个D-1维的曲面。
有

\nabla g (x) 正 交 于 此 曲 面

$\nabla g(x)正交于此曲面$

证明：考虑⼀个位于限制曲⾯上的点x以及这个点附近同样位于曲⾯上的点x + ϵ。如
果我们在点x处进⾏泰勒展开，那么我们有
$g (x + ϵ) \approx g (x) + ϵ T \nabla > g (x)$ $g(x+\epsilon )\approx g(x)+\epsilon ^T\nabla > g(x)$ 我们有： $g (x + ϵ) = g (x) = 0 \Rightarrow ϵ T \nabla g (x) > \approx 0$ $g(x+\epsilon )=g(x)=0 \Rightarrow \epsilon ^T\nabla g(x) > \approx 0$ $ϵ \to 0 \Rightarrow ϵ T \nabla g (x) = 0$ $\epsilon \to 0 \Rightarrow\epsilon ^T\nabla g(x)=0$
$\epsilon$ 平行于曲面，所以 $\nabla g(x)$ 正交于曲面。