支持向量机(SVM)与其理论发展(2):对偶学习
一 、对偶理论
对偶(dual)这个词在优化理论中是相当常见的,在基础的数学课上我们学过条件极值的拉格朗日乘子法,在初步的运筹学中有线性规划的对偶算法,这里用到的对偶理论具体地称为拉格朗日对偶,就我看来是综合了分析中的拉格朗日乘子与线性对偶的结果。所谓对偶,就是将原问题变形为所谓的对偶问题,从而得到对原问题优化的估计,比如,最优值的下界,并利用某些性质侧面的得到原问题的解。最大熵模型和支持向量机是两个比较常见的利用对偶原理的例子。
下面我们暂时脱离支持向量机的问题,来看一般的拉格朗日对偶理论:
原始问题:
minx∈Rn f0(x)
s.t. fi(x)≤0, i=1,2,⋯,m
hi(x)=0, i=1,2,⋯,p
默认所考虑的定义域D=⋂mi=0fi(x)∩⋂pi=1hi(x)非空,并且记最优值为p∗(不一定可达,相当于取inf,事实上,似乎最优化问题一般不会具体去讨论确界可达性问题)。这里并没有假定任何函数是凸的。
相比较分析学中的条件极值,这里加入了不等式约束,我们仍然构建形式相同的拉格朗日函数:
L(x,λ,ν)=f0(x)+∑mi=1λifi(x)+∑pi=1νihi(x)
我们将λi称为第i个不等式约束fi(x)≤0的Lagrange乘子,νi同理称为第i个等式约束hi(x)=0的Lagrange乘子。
接下来引入拉格朗日对偶函数:
对偶函数其实是拉格朗日函数的逐点下确界,它有一些很有用的性质。
拉格朗日对偶函数的一些性质
1.对偶函数在λ≥0时构成了原问题最优值p∗的下界,也就是∀λ≥0,ν,g(λ,ν)≤p∗。
这是容易证明的,对原始问题的任一可行点x∗,我们有
L(x∗,λ,ν)=f0(x∗)+∑mi=1λifi(x∗)+∑pi=1νihi(x∗) =f0(x∗)+∑mi=1λi