前文我们讲解了拉格朗日乘子和KKT条件,下面我们回到最前面的SVM对应的硬间隔目标函数:
构造对应的拉格朗日函数:
注意再将原问题转化为对应的拉格朗日函数后,对应的条件的也完成了相应变化,此时条件只需满足 ,当然隐含条件为
。
现在我们构建关于的函数,
因为,故存在
可以看到上式与原始最优化问题等价,即有相同的解。这个式子被称为广义拉格朗日函数的极小极大问题。
关于广义拉格朗日函数的极小极大问题,其实本身并未对有严格要求,我们可以浅浅的分析一下,
假设给定某个违反原始问题约束条件的 ,即存在某个
使得
,即
,则可
,令其余满足
的
使得
,显然这不可能,因为此时拉格朗日函数的极小极大问题毫无疑问无解。因此
必然成立。
下面我们来看一下极小极大拉格朗日函数所对应的极大极小拉格朗日函数。
对偶问题:构建关于的函数
对应的极大化问题为:
这个式子被称为广义拉格朗日函数的极大极小问题。
若原始问题与对偶问题都有最优解,我们可以得到:
(ps:关于此式的证明比较简单,这里我们可以简单理解为左边式子表示先找到当前函数值最小的一组值,再在这组下值中找到最大的那个;右边式子表示先找到当前函数值最大的一组值,再在这组下值中找到最小的那个)
上式被称为“弱对偶性”,而若,被称为“强对偶性”。一般来说强对偶性通常不成立,但是若主问题为凸优化问题,且其可行域中至少存在一点使不等式约束条件严格成立,则此时强对偶性成立。SVM中显然满足上述条件,即满足
,两着的最优值相等。
强对偶是一个非常好的性质,因为在强对偶成立的情况下,可以通过求解对偶问题来得到原始问题的解,在 SVM 中就是这样做的。当然并不是所有的对偶问题都满足强对偶性 ,在 SVM 中是直接假定了强对偶性的成立,其实只要满足一些条件,强对偶性是成立的,比如说 Slater 条件与KKT条件。一般来说只要满足了KKT条件也就满足了强对偶性。
综上所述 硬间隔问题可转变为求解
先求L关于w,b的极小值:
将以上结果带代入原式,
因此原式可以得到,svm新的形式,即n个样本,
当然对应的软间隔问题也可以转变为:
我们先写下软间隔下的svm表达式:
假设有n个样本;
与之对应的拉格朗日函数表达式为:
因为
故存在
与之对应的对偶问题表达式为:
先求L关于的极小值:
我们将原式展开得到:
将上式结果带入
可以看出结果与硬间隔相比,只是条件发生了改变。
现在我们得到了svm软间隔的新形式,即n个样本
我们将条件进一步简化:
至此,svm求解进入真真意义上的求解。不过在此之前,我们得先考虑向下线性可分与不可分情况,svm保姆级教程---(四)核技巧与线性不可分。