阅读KKT条件之前的准备工作
1、最优化问题
数学规划问题,或着说最优化问题,一般可写成下面的形式:
2、先看看二维的问题
为了简单起见,我们考虑二维情况,假设
x=(x1,x2)
,则最优化问题变成如下形式:
几何意义非常明显,要求在曲线 g(x1,x2)=c 上找一点,使得函数 f(x1,x2) 取得最大值。因为 f(x1,x2) 是一个曲面,形象一点说,问题就是在山上寻找一条山路的最高点。
3、聊一聊等高线
求解最优规划问题的关键在于曲面的等高线。我们停下脚步,看看等高线有趣的性质。对于曲面
f(x1,x2)
来说,其等高线可以表示成下面的形式,
两边进行微分,得到,
可以看出, dx1,dx2 之间是有关系的。实际上,微分 dx=(dx1,dx2) 与曲线 f(x1,x2)=c 切线方向一致。如果觉得不好理解的话,可以吧 x1,x2 换成 x,y ,问题就变成一元函数求导,我们知道 dy/dx 表示曲线的切线斜率,当然 (dx,dy) 就与曲线的切线方向相同。于是,我们得到曲面等高线的切线向量,
我们知道,曲面 f(x1,x2) 的梯度可表示为,
于是(4)式可以表示为,
可以看出, 曲面上任意一点,其等高线的切线方向与其梯度方向相互垂直。
4、约束条件本质上是曲面的等高线
约束条件 g(x1,x2)=c ,实际上就是曲面 g(x1,x2) 的一条等高线。根据前面的结论,它的切线方向与梯度方向垂直。
5、目标函数的等高线
二元函数的最优规划问题,和寻找山间小路上的最高点的思路是一样。到达山间小路最高点位置后,无论沿山间小路哪个方向走,都是下坡,都会走向较低的等高线,因此,在小路的最高点位置,小路必须与山坡的等高线相切。
同样,我们沿着曲线
g(x1,x2)=c
到达最曲面
f(x1,x2)
最高点,这条小路一定与曲面
f(x1,x2)
在此位置的等高线相切,也就是曲线
g(x1,x2)=c
与曲线
f(x1,x2)=c′
在最大值位置相切。或者从梯度的角度来看,曲面
f(x1,x2),g(x1,x2)
在最大值位置梯度方向是相同的。
换句话讲,如果规划问题在
(x1,x2)
处取得最大值,一定存在常数
λ
使得,
看到这里怎么有些懵圈呢?最优解和常数 c 怎么就没关系了呢?不是说好的 g(x1,x2)=c 吗?实际上, λ 是待定参数, c 的值可以用来确定 λ
的值。下面我们牛刀小试,看一个具体的例子。
KKT条件学习
约束优化方法之拉格朗日乘子法与KKT条件
引言
本篇文章将详解带有约束条件的最优化问题,约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解,所以本文称拉格朗日乘子法得到的为可行解,其实就是局部极小值,接下来从无约束优化开始一一讲解。
无约束优化
首先考虑一个不带任何约束的优化问题,对于变量 x∈RN
,无约束优化问题如下:
该问题很好解,根据 Fermat 定理,直接找到使目标函数得 0 的点即可 即 ∇xf(x)=0
,如果没有解析解的话,可以使用梯度下降或牛顿方法等迭代的手段来使 x沿负梯度方向逐步逼近极小值点。
等式约束优化
当目标函数加上约束条件之后,问题就变成如下形式:
约束条件会将解的范围限定在一个可行域,此时不一定能找到使得 ∇xf(x)
为 0 的点,只需找到在可行域内使得 f(x) 最小的值即可,常用的方法即为拉格朗日乘子法, 该方法首先引入 Lagrange Multiplier α∈Rm,构建 Lagrangian 如下:
求解方法如下:首先对 Lagrangian 关于 α
与 x求 :
令导数为 0 ,求得 x
、 α 的值后,将 x 带入 f(x) 即为在约束条件 hi(x) 下的可行解。这样做的意义是什么呢? 接下来看一个直观的示例,对于二维情况下的目标函数是 f(x,y) ,在平面中画出 f(x,y) 的等高线,如下图的虚线所示, 并只给出一个约束等式 h(x,y)=0 ,如下图的绿线所示,目标函数 f(x,y) 与约束 g(x,y)只有三种情况,相交、相切或者没有交集,没交集肯定不是解,只有相交或者相切可能是解,但相交得到的一定不是最优值,因为相交意味着肯定还存在其它的等高线在该条等高线的内部或者外部,使得新的等高线与目标函数的交点的值更大或者更小,这就意味着只有等高线与目标函数的曲线相切的时候,才可能得到可行解.
因此给出结论:拉格朗日乘子法取得极值的必要条件是目标函数与约束函数相切,这时两者的法向量是平行的,即
所以只要满足上述等式,且满足之前的约束 hi(x)=0,i=1,2,…,m
,即可得到解,联立起来,正好得到就是拉格朗日乘子法。这里只是直观展示了一下拉格朗日乘子法的几何推导 ,并没有给出详细的证明。
不等式约束优化
当约束加上不等式之后,情况变得更加复杂,首先来看一个简单的情况,给定如下不等式约束问题:
对应的 Lagrangian 与图形分别如下所示:
这时的可行解必须落在约束区域 g(x)
之内,下图给出了目标函数的等高线与约束:
由图可见可行解 x
只能在 g(x)<0 或者 g(x)=0的区域里取得:
- 当可行解 x
- 即可;
- 当可行解
x
落在
g(x)=0
- 即边界上,此时等价于等式约束优化问题.
当约束区域包含目标函数原有的的可行解时,此时加上约束可行解扔落在约束区域内部,对应 g(x)<0
的情况,这时约束条件不起作用;当约束区域不包含目标函数原有的可行解时,此时加上约束后可行解落在边界 g(x)=0上。下图分别描述了两种情况,右图表示加上约束可行解会落在约束区域的边界上。
以上两种情况就是说,要么可行解落在约束边界上即得 g(x)=0
,要么可行解落在约束区域内部,此时约束不起作用,另 λ=0消去约束即可,所以无论哪种情况都会得到:
λg(x)=0还有一个问题是 λ
的取值,在等式约束优化中,约束函数与目标函数的梯度只要满足平行即可,而在不等式约束中则不然,若 λ≠0 ,这便说明 可行解 x是落在约束区域的边界上的,这时可行解应尽量靠近无约束时的解,所以在约束边界上,目标函数的负梯度方向应该远离约束区域朝向无约束时的解,此时正好可得约束函数的梯度方向与目标函数的负梯度方向应相同:
−∇xf(x)=λ∇xg(x)上式需要满足的要求是拉格朗日乘子 λ>0
,这个问题可以举一个形象的例子,假设你去爬山,目标是山顶,但有一个障碍挡住了通向山顶的路,所以只能沿着障碍爬到尽可能靠近山顶的位置,然后望着山顶叹叹气,这里山顶便是目标函数的可行解,障碍便是约束函数的边界,此时的梯度方向一定是指向山顶的,与障碍的梯度同向,下图描述了这种情况 :
可见对于不等式约束,只要满足一定的条件,依然可以使用拉格朗日乘子法解决,这里的条件便是 KKT 条件。接下来给出形式化的 KKT 条件 首先给出形式化的不等式约束优化问题:
列出 Lagrangian 得到无约束优化问题:
L(x,α,β)=f(x)+∑i=1mαihi(x)+∑j=1nβigi(x)经过之前的分析,便得知加上不等式约束后可行解 x
需要满足的就是以下的 KKT 条件:
=0满足 KKT 条件后极小化 Lagrangian 即可得到在不等式约束条件下的可行解。 KKT 条件看起来很多,其实很好理解:
(1) :拉格朗日取得可行解的必要条件;
(2) :这就是以上分析的一个比较有意思的约束,称作松弛互补条件;
(3) ∼
(4) :初始的约束条件;
(5) :不等式约束的 Lagrange Multiplier 需满足的条件。
主要的KKT条件便是 (3) 和 (5) ,只要满足这俩个条件便可直接用拉格朗日乘子法, SVM 中的支持向量便是来自于此,需要注意的是 KKT 条件与对偶问题也有很大的联系,下一篇文章就是拉格朗日对偶。
参考文献:
1. 书:PRML | 《机器学习方法》-李航 |《机器学习》-周志华
2. http://blog.youkuaiyun.com/xianlingmao/article/details/7919597
3. http://blog.youkuaiyun.com/timingspace/article/details/50966105
4. http://blog.youkuaiyun.com/loadstar_kun/article/details/25369017
5. http://blog.youkuaiyun.com/johnnyconstantine/article/details/46335763
6. http://www.csc.kth.se/utbildning/kth/kurser/DD3364/Lectures/KKT.pdf nice PPT
http://www.csc.kth.se/utbildning/kth/kurser/DD3364/Lectures/Duality.pdf
7. http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html