拉格朗日乘子法和KKT条件详解，以及在SVM上的应用

原创已于 2024-09-22 18:38:23 修改 · 1.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #机器学习 #算法

于 2024-09-22 18:17:36 首次发布

机器学习专栏收录该内容

1 篇文章

订阅专栏

拉格朗日乘子法和KKT条件详解，以及在SVM上的应用

在最优化问题中，我们可以根据约束类型将其分为三类：无约束优化问题、等式约束优化问题以及不等式约束优化问题。其中无约束问题最简单，只需要求导，找到导数为0的极值点，再带回原函数验证其最值性即。而有约束的优化问题求解，则可以用到拉格朗日乘子法（Lagrange Multiplier），不等式约束中还需要额外在极值点处满足KKT（Karush Kuhn Tucker）条件，KKT条件是对拉格朗日乘子法在不等式约束上的一种泛化。

一、等式约束

形如：
$\begin{align*} &min\ f(x) \\ s.t.\quad &h_i(x) = 0\quad i=1,2,...,l \end{align*}$
的优化问题称为等式约束优化，其中 $f (x)$ 为目标函数， $h_i(x)=0$ 为约束条件。

解决这个问题主要使用的方法有消元法和拉格朗日乘子法，事实上当约束函数非线性的时候，使用消元法去消元并不容易，而拉格朗日乘子法可以很好的解决该问题，我们先说求解过程，再讲解原理。

1.1拉格朗日乘子法过程

（1）拉格朗日乘子法第一步首先要构造拉格朗日函数：
$L(x,\lambda) = f(x) + \sum_{i=1}^{l}\lambda_ih_i(x)$
注意这里的 $x$ ， $λ\lambda$ 表示位向量， $λ\lambda$ 为约束函数前待定系数的向量， $L$ 是关于 $x$ 和 $λ\lambda$ 的函数。

（2）第二步，对每个自变量求偏导，并令其为0，以求解 $F$ 的极值点
$\frac{\partial L(x,\lambda)}{\partial x_k} = 0,\quad \frac{\partial L(x,\lambda)}{\partial \lambda_i} = 0$
（3）若 $x$ 为 $k$ 维向量， $λ\lambda$ 为 $l$ 维向量，则得到 $k + l$ 个等式，联合求出极值点 $x^*$ ，带回原函数 $f(x^*)$ 即为最值，再验证即可。

1.2拉格朗日乘子法原理

为了直观说明，在此举一个简单的二维例子
$\begin{align*} & min\ f(x,y) \\ s.t.\quad &h(x,y) = 0 \\ \end{align*}$
在这里插入图片描述

我们在平面上做出 $h (x, y) = 0$ 的图像（图中橙色曲线），以及 $f (x, y)$ 的等高线（图中虚线），可以看到箭头是函数梯度的方向，沿梯度方向函数值下降最快。只有落在橙色曲线上的点才满足约束条件，而这些点中，哪一个点使目标函数 $f (x, y)$ 取到最小值呢？很显然在橙色曲线与 $f$ 等高线相切的这一点， $f (x, y)$ 取到最小值，否则沿曲线向与梯度夹角为锐角方向前进可以得到更小的目标函数值。

因此我们可以得到在最小值点有 $f$ 与 $g$ 相切，二者梯度共线：
$\nabla f(x,y) = \lambda \nabla h(x,y)$
即
$\nabla (f(x,y)+ \lambda h(x,y)) = 0\\$
因此构造拉格朗日函数 $L(x,y,λ)=f(x,y)+λh(x,y)L(x,y,\lambda) = f(x,y)+\lambda h(x,y)$ ，且有:
$\frac{\partial L(x,y,\lambda)}{\partial x}=\frac{\partial (f(x,y)+ \lambda h(x,y))}{\partial x} = 0,\qquad \frac{\partial L(x,y,\lambda)}{\partial y}=\frac{\partial (f(x,y)+ \lambda h(x,y))}{\partial y} = 0$

又最小值点在曲线上，因此满足 $g (x, y) = 0$ ，所以:
$\frac{\partial L(x,y,\lambda)}{\partial \lambda}=\frac{\partial (f(x,y)+ \lambda h(x,y))}{\partial \lambda} = h(x,y)=0$
因此得到：
$\frac{\partial L(x,y,\lambda)}{\partial x} = 0，\quad \frac{\partial L(x,y,\lambda)}{\partial y} = 0，\quad \frac{\partial L(x,y,\lambda)}{\partial \lambda} = 0，$
这我们可以看出最小值点即为 $L(x,y,λ)L(x,y,\lambda)$ 的极值点中的 $(x, y)$ ，这就是为何我们可以通过构造拉格朗日函数并求其极值点来找目标函数的最值，但注意求出的只是极值点，还要验证其是否为最值。

将本例推广到任意维空间，以及任意数量约束的优化问题中可得到 $1.1$ 所提到的拉格朗日乘子法。

二、不等式约束

形如：
$\begin{align*} &min\ f(x) \\ s.t.\quad &h_i(x) = 0\quad i=1,2,...,p \\ &g_j(x) \le 0\quad j=1,2,...,q \end{align*}$
的优化问题称为不等式约束优化，其中 $f (x)$ 为目标函数， $h_i(x)=0$ 为等式约束条件， $gj(x)≤0g_j(x)\le 0$ 为不等式约束条件。

2.1KKT条件

解决这个问题同样可以使用拉格朗日乘子法

（1）构造拉格朗日函数
$L(x,\lambda,\mu) = f(x) + \sum_{i=1}^{p}\lambda_ih_i(x)+ \sum_{j=1}^{q}\mu_jg_j(x)$
（2）第二步，对每个自变量求偏导，并令其为0，以求解 $F$ 的极值点
$\frac{\partial L(x,\lambda)}{\partial x_k} = 0,\quad \frac{\partial L(x,\lambda)}{\partial \lambda_i} = 0 \quad \frac{\partial L(x,\mu)}{\partial \mu_j} = 0$
（3）对得到的等式，联合求出极值点 $x^*$ ，带回原函数 $f(x^*)$ 即为最值，再验证即可。

但我们需要额外要求在解这一点满足KKT条件，把拉格朗日函数表示为 $L(x,λ,μ)=f(x)+λ∗h(x)+μ∗g(x)L(x,\lambda,\mu)= f(x) + \lambda*h(x)+\mu*g(x)$ ，KKT条件是说最优值处必须满足以下条件：

$\lambda, \mu)$ 对 $x$ 求导为零；
$h (x) = 0$ ;
$μ∗g(x)=0;\mu*g(x) = 0;$

2.2KKT条件原理

KKT条件中第三个式子非常有趣，因为 $g (x) <= 0$ ，如果要满足这个等式，必须 $μ=0\mu=0$ 或者 $g (x) = 0$ . 这是SVM的很多重要性质的来源，如支持向量的概念。

接下来主要介绍KKT条件，推导及应用。为简化证明过程，设不等式约束如下：
$\begin{align*} &min\ f(x) \\ s.t.\quad &g_j(x) \le 0\quad j=1,2,...,p \\ \end{align*}$
其中 $f (x)$ 为目标函数， $gj(x)≤0g_j(x)\le0$ 为不等式约束条件
$\begin{align*} &min\ f(x) \\ s.t.\quad &g_j(x) \le 0\quad j=1,2,...,p \\ \end{align*}$
其中 $f (x)$ 为目标函数， $gj(x)≤0g_j(x)\le0$ 为不等式约束条件
$\begin{align*} &let& &L（x,\mu) = f(x) + \sum_{j=1}^{p}u_jg_j(x) \\ &where& &u_j\ge 0,\quad g_j(x)\le0 \\ &\therefore& &ug(x)\le 0 \\ &\therefore& &\mathop{max}\limits_{\mu}\ L(x,\mu) = f(x)& &(1)&\\ &so& &\mathop{min}\limits_x \ \mathop{max}\limits_{\mu}\ L(x,\mu) =\mathop{min}\limits_x f(x)& &(2)&\\ \\ &\because& &\mathop{max}\limits_{\mu}\ \mathop{min}\limits_x\ L(x,\mu) = \mathop{max}\limits_{\mu}(\mathop{min}\limits_{x}\ f(x) +\mathop{min}\limits_{x}\ ug(x) & \\ &and& &u_j\ge 0,\quad g_j(x)\le0 \\ &\\ &\therefore& &\mu g(x)=\left\{ \begin{align*} & 0 & &u_j = 0\ or\ g_j(x)=0 \\ &-\infty & &u_j < 0\ and\ g_j(x)>0 \\ \end{align*} \right.&\\ &so& &\mathop{max}\limits_{\mu} \ \mathop{min}\limits_{x}\ L(x,\mu) =\mathop{min}\limits_x f(x) ,\quad when\ u = 0\ or\ g(x)=0& &(3)&\\ \\ &because(1) (2)& &\mathop{max}\limits_{\mu} \ \mathop{min}\limits_{x}\ L(x,\mu) = \mathop{min}\limits_x \ \mathop{max}\limits_{\mu}\ L(x,\mu)= \mathop{min}\limits_x f(x),\quad when\ ug(x)=0& &(4)&\\ \\ \end{align*}$
其中我们称 $L(x,μ)\mathop{max}\limits_{\mu} \ \mathop{min}\limits_{x}\ L(x,\mu)$ 为原问题 $L(x,μ)=\mathop{min}\limits_x \ \mathop{max}\limits_{\mu}\ L(x,\mu)=$ 的对偶问题，在满足一定条件时，二者的解是相同的。设解为 $x^*$ ,由公式(1)和公式(4可得到：
$\begin{align*} &\because\quad \mathop{min}\limits_x\ f(x) = f(x^*) =\mathop{max}\limits_{\mu}\ L(x^*,\mu)\\ &\because\quad \mathop{max}\limits_{\mu} \ \mathop{min}\limits_{x}\ L(x,\mu) =\mathop{min}\limits_x f(x),\quad when\ ug(x)=0\\ &\therefore \quad \mathop{min}\limits_{x}\ L(x,\mu)=\ L(x^*,\mu)\\ &因此x^*是L(x,\mu)的极值点：\frac{\partial L(x,\mu)}{\partial x|x=x^*}=0 \end{align*}$
其中我们称 $L(x,μ)\mathop{max}\limits_{\mu} \ \mathop{min}\limits_{x}\ L(x,\mu)$ 为原问题 $L(x,μ)=\mathop{min}\limits_x \ \mathop{max}\limits_{\mu}\ L(x,\mu)=$ 的对偶问题，在满足一定条件时，二者的解是相同的。设解为 $x^*$ ,由公式(1)和公式(4可得到：
$\begin{align*} &\because\quad \mathop{min}\limits_x\ f(x) = f(x^*) =\mathop{max}\limits_{\mu}\ L(x^*,\mu)\\ &\because\quad \mathop{max}\limits_{\mu} \ \mathop{min}\limits_{x}\ L(x,\mu) =\mathop{min}\limits_x f(x),\quad when\ ug(x)=0\\ &\therefore \quad \mathop{min}\limits_{x}\ L(x,\mu)=\ L(x^*,\mu)\\ &因此x^*是L(x,\mu)的极值点：\frac{\partial L(x,\mu)}{\partial x|x=x^*}=0 \end{align*}$
以上我们以及得到了KKT条件中的第一条和第三条，若将等式约束一并纳入，则有
$\frac{\partial L(x,\lambda,\mu)}{\partial \lambda}= h(x)=0$
由此我们得到了KKT条件中的第二条。
注： $x,λ,μ，h(x),g(x)x,\lambda,\mu，h(x),g(x)$ 均为向量

$∂L(x,μ)∂x∣x=x∗=0\frac{\partial L(x,\mu)}{\partial x|x=x^*}=0$ ，说明了在 $x^*$ 处 $f (x)$ 的梯度是 $h_i(x^*)$ 和 $g_j(x^*)$ 梯度的的线性组合

三、具体应用SVM(支持向量机)

问题背景与支持向量

给定训练样本集 $D$ ，分类学习基本思想就是找到一个超平面划分，将不同的样本分开，但能将训练样本分开的超平面有许多（如图），选择哪一个就是我们要考虑的问题。
在这里插入图片描述

如图所示，存在多个超平面划分将两类样本分开（训练集 $D$ 中样本形式为 $(x, y) ， x$ 为特征向量， $y$ 为分类标签 $y∈{−1,1}y\in\{-1,1\}$ ）

不难想到，我们选择“正中间”超平面作为分界线效果最好，因为当训练集出现局部扰动时，该划分对其容忍性最好，换言之，当训练集出现异常样本时，该划分比起其他划分更不容易出错。在线性空间中，我们可以通过线性方程来表示超平面划分：
$\omega^Tx + b =0$
$ω=(ω1,ω2,...,ωd)\omega=(\omega_1,\omega_2,...,\omega_d)$ 为超平面法向量，任意样本点 $x$ 到平面法向量的距离可表示为：
$\frac{|\omega^Tx + b|}{\|\omega\|}$
对于能正确分类样本的超平面，有对任意样本 $(xi,yi)∈D(x_i,y_i)\in D$ ，当 $y_i=+1$ 时， $ωT+b>0\omega^T+b>0$ ，当 $y_i=-1$ 时， $ωT+b<0\omega^T+b<0$ ，对任意 $ω、b\omega、b$ 只要满足上述条件，我们就可以做一个简单的伸缩变换使得满足：
$\left\{ \begin{align*} &\omega^T+b\ge +1,&\ &y_i=+1 \\ &\omega^T+b\le -1,&\ &y_i=-1 \\ \end{align*} \right.$
距离平面最近的几个训练样本点使等号成立，被称为支持向量，支持向量到超平面的距离为 $1∥ω∥\frac{1}{\|\omega\|}$ ，两个异类支持向量到平面的距离和为：
$\gamma = \frac{2}{\|\omega\|}$
这个距离和被称之为间隔。

在这里插入图片描述

现在让我们回顾我们的任务：能将训练样本分开的超平面有许多（如图），选择一个分类效果最好，对误差容忍性最好的超平面划分。那么怎么样的超平面才是效果最好的，答案是 $γ\gamma$ 最大，也就是 $2∥ω∥\frac{2}{\|\omega\|}$ 最大的平面，于是我们就得到了一个优化问题，找到满足约束的 $ω、b\omega、b$ 使得， $γ\gamma$ 最大：
$\mathop{max}\limits_{\omega,b} \ \frac{2}{\|\omega\|}\\ s.t.\ y_i(\omega^Tx_i + b)\ge 1,\quad i=1,2....,d$
我们可以做一个简单的等价，使其转化为优化问题的标准型：
$\mathop{min}\limits_{\omega,b} \ \frac{1}{2}\|\omega\|^2\\ s.t.\ y_i(\omega^Tx_i + b)\ge 1,\quad i=1,2....,d$

这就是支持向量机（Support Vector Machine）的基本型。

对偶问题

如上述，我们得到了一个凸二次规划问题，对其使用拉格朗日乘子法：为每条约束条件添加拉格朗日乘子 $αi\alpha_i$ ,得到拉格朗日函数：
$L(\omega,b,\alpha) =\frac{1}{2}\|\omega\|^2 + \sum_{i=1}^{m}\alpha_i(1-y_i(\omega_i^Tx_i + b))$
令 $∂L∂b=0\frac{\partial L}{\partial \omega}=0,\ \frac{\partial L}{\partial b}=0$ ，得到：
$\omega = \sum_{i=1}^{m}\alpha_iy_ix_i\\ 0 = \sum_{i=1}^{m}\alpha_iy_i$
带入 $L(ω,b,α)L(\omega,b,\alpha)$ ,将 $ω,b\omega,b$ 消去，得到原问题的对偶问题：
$\mathop{max}\limits_{\alpha} \sum_{i=1}^{m}\alpha_i - \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ s.t. \sum_{i=1}^m\alpha_iy_i = 0,\quad \alpha_i\ge0,\quad i=1,2,...,m$
解出 $α\alpha$ 后，求得 $ω,b\omega,b$ 得到我们想要的模型：
$\omega^Tx + b = \sum_{i=1}^m \alpha_i y_i x_i^T x + b$
由于是不等式约束，还需满足KKT条件：
$\left\{ \begin{align*} \quad &\alpha_i \ge 0 \\ &y_if(x_i) - 1 \ge 0\\ &\alpha_i(y_if(x_i)-1)=0 \end{align*} \right.$
这揭示了SVM的一个重要性质，对任意训练样本 $x_i,y_i)$ ，总有 $αi=0\alpha_i =0$ 或者 $y_if(x_i) - 1 = 0$ ，若 $αi=0\alpha_i =0$ ，则不会出现在 $f (x)$ 的求和式中，因此不会对最终模型 $f (x)$ 照成影响，若 $αi=0，则yif(xi)=1\alpha_i =0，则y_if(x_i) = 1$ ，这表明样本 $x_i,y_i)$ 是一个支持向量。这告诉我们训练结束后，大部分训练样本都不需要保留，最终模型仅与 $f (x)$ 有关。