【机器学习】拉格朗日乘子法

最新推荐文章于 2024-03-06 19:12:26 发布

原创最新推荐文章于 2024-03-06 19:12:26 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#拉格朗日乘子法

机器学习专栏收录该内容

29 篇文章

订阅专栏

本文深入探讨了拉格朗日乘子法在解决约束最优化问题中的应用，介绍了如何将原始问题转化为对偶问题进行求解，特别是在支持向量机中的运用。同时，讲解了仿射函数、凸函数的概念以及KKT条件的重要性。

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

在约束最优化问题中，常利用拉格朗日乘子法将原始问题转换为对偶问题求解。即通过引入拉格朗日乘子，将有 $d$ 个变量和 $k$ 个约束条件的最优化问题转化为具有 $d + k$ 个变量的无约束优化问题求解。

其通常的做法就是将约束函数与原目标函数联立，从而求出使原函数取得极值的各个变量的解，代入新函数，即可得到原目标函数的极值。

这种方法的最典型应用是在支持向量机当中。

考虑具有 $m$ 个等式约束和 $n$ 个不等式约束，且可行域 $\mathbb { D } \subset \mathbb { R } ^ { d }$ 非空的优化问题（原始问题）：
$\min _ { \boldsymbol { x } } f ( \boldsymbol { x } )$

$\begin{array} { l l } { \text { s.t. } } & { h _ { i } ( \boldsymbol { x } ) = 0 \quad ( i = 1 , \ldots , m ) } \\ { } & { g _ { j } ( \boldsymbol { x } ) \leqslant 0 \quad ( j = 1 , \ldots , n ) } \end{array}$

引入拉格朗日乘子 $\lambda$ 和 $\mu$ ，得到相应的拉格朗日函数（对偶问题）：
$\boldsymbol { x } , \boldsymbol { \lambda } , \boldsymbol { \mu } ) = f ( \boldsymbol { x } ) + \sum _ { i = 1 } ^ { m } \lambda _ { i } h _ { i } ( \boldsymbol { x } ) + \sum _ { j = 1 } ^ { n } \mu _ { j } g _ { j } ( \boldsymbol { x } )$

假设原始问题的最优值为 $p ^ { * }$ ，对偶问题的最优值为 $d ^ { * }$ 。在某些条件下，原始问题和对偶问题的最优值相等 $d ^ { * } = p ^ { * }$ ，此时可以用求解对偶问题来代替求解原始问题。

仿射函数的定义：
设 $f (x)$ 是一个矢性（值）函数，如果它满足 $\cdot x + b$ ， $\in \mathbf { R } ^ { n }$ ， $\in \mathbf { R }$ ， $\in \mathbf { R } ^ { n }$ ，则称 $f (x)$ 是仿射函数。
当仿射函数的常数项为0时，称为线性函数。

假设 $\boldsymbol { x } )$ 和 $\boldsymbol { x } )$ 均为凸函数， $\boldsymbol { x } )$ 为仿射函数，并且假设不等式约束 $\boldsymbol { x } )$ 是严格可行的，即至少存在一点 $x$ ，对所有 $i$ 都有 $\boldsymbol { x } ) < 0$ ，那么就会存在 $x ^ { * }$ 、 $\lambda ^ { * }$ 和 $\mu ^ { * }$ ，使 $x ^ { * }$ 是原始问题的解， $\lambda ^ { * }$ 和 $\mu ^ { * }$ 是对偶问题的解，并且
$\left( x ^ { * } , \lambda ^ { * } , \mu ^ { * } \right)$
也就是说，此时可以用求解对偶问题来代替求解原始问题。

而 $x ^ { * }$ 、 $\lambda ^ { * }$ 和 $\mu ^ { * }$ 分别是原始问题和对偶问题的解的充分必要条件是 $x ^ { * }$ 、 $\lambda ^ { * }$ 、 $\mu ^ { * }$ 满足Karush-Kuhn-Tucker (KKT)条件 $\ldots , n )$ ：
$\left\{ \begin{array} { l } { g _ { j } ( x ) \leqslant 0 } \\ { \mu _ { j } \geqslant 0 } \\ { \mu _ { j } g _ { j } ( \boldsymbol { x } ) = 0 } \\ h _ { j } \left( x ^ { * } \right) = 0\end{array} \right.$