SVM的原问题和对偶问题模型

最新推荐文章于 2024-05-26 00:23:34 发布

原创

最新推荐文章于 2024-05-26 00:23:34 发布 · 1.2w 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #svm

本文详细介绍了SVM（支持向量机）的原问题和对偶问题，涉及线性可分和线性不可分两种情况。在基础知识部分讲解了带约束优化问题的求解方法和对偶互补约束条件，以及核函数的概念。对于线性可分情况，探讨了SVM的几何意义和原、对偶问题的转换。当面临线性不可分数据时，引入了软间隔（Soft SVM）的概念和松弛变量。通过对偶问题，SVM可以利用核函数在高维空间找到更好的解决方案。

这两天，我翻开沉压已久的学习笔记，看到了当初总结的SVM学习心得，为了避免不小心弄丢了，就在这里重新记录一下吧，希望对初学机器学习理论并热爱公式推导的朋友有所帮助。SVM作为一种经典的机器学习算法，在处理“小样本”问题时效果非常显著。本文主要分成三大部分，第一部分介绍一些基本知识，这些知识在SVM的公式推导过程中会用到，所以最先介绍。第二部分针对数据集线性可分的情况，推导SVM的原问题和对偶问题表达式。第三部分针对数据集线性不可分的情况，推导SVM的原问题和对偶问题表达式。

基础知识

带约束优化问题的求解方法

带约束优化问题的一般式如下，

$\\ \textit{subject to}\ \ g_{i}(w)\leq0, i=1,...,m\\ \ \ \ h_{i}(w)=0, i=1,...,n$

若约束条件比较复杂，则很难求解，因此我们希望把带约束的优化问题转化为无约束的优化问题。定义Lagrangian式如下，

$\alpha ,\beta )=f(w)+\sum_{i=1}^{m}\alpha_{i}\times g_{i}(w)+\sum_{i=1}^{n}\beta_{i}\times h_{i}(w)$

新的无约束表达式为 $θp(w)=max⁡α,β,αi≥0L(w,α,β)\theta_{p}(w)=\max_{\alpha, \beta, \alpha_{i}\geq 0}L(w, \alpha, \beta)$ ，因为
　　 $constraint"+∝otherwise\theta_{p}(w)=\begin{cases} f(w) & \text{ w subject to "primal constraint"} \\ +\propto & \text{otherwise} \end{cases}$

所以，对带约束原问题的求解等价于 $min⁡wθp(w)=min⁡wmax⁡α,β,αi≥0L(w,α,β)\min_{w}\theta_{p}(w)=\min_{w}\max_{\alpha, \beta, \alpha_{i}\geq 0}L(w, \alpha, \beta)$ ，实质上，此时的约束隐藏在了目标函数中。

对偶互补约束条件

“slate”条件：指严格满足不等式约束条件的点w，即 $g_{i}(w)<0,\ \ (i=1,...,m)$ ，对于SVM问题，亦即要求“数据是可分的”，当数据不可分时，强对偶（strong duality）不成立。
　　“strong duality”:原问题是convex的，并且满足slater条件，此时 $minLmin\ max L\geq max \ min L$ 的等号成立。这里需要注意一下，QP是凸优化问题的一种特殊情况。
　　当“strong duality”关系成立时，一定存在 $w∗,α∗,β∗w^{*}, \alpha^{*}, \beta^{*}$ ，使得 $w^{*}$ 是原问题的解， $α∗,β∗\alpha^{*}, \beta^{*}$ 是对偶问题的解。记primal, dual分别为原问题和对偶问题， $primal^{*}, dual^{*}$ 分别为原问题和对偶问题的最优解，那么有 $primal∗=dual∗=L(w∗,α∗,β∗)primal^{*}=dual^{*}=L(w^{*}, \alpha^{*}, \beta^{*})$ 成立，并且 $w∗,α∗,β∗w^{*}, \alpha^{*}, \beta^{*}$ 满足KKT条件，

$condition)∂L(w∗,α∗,β∗)wi=0i=1,...,d∂L(w∗,α∗,β∗)βi=0i=1,...,n\begin{cases} \alpha^{*}_{i}\geq 0 & i=1,...,m \\ g_{i}(w^{*})\leq 0 & i=1,...,m \\ \alpha^{*}_{i}\times g_{i}(w^{*})=0& i=1,...,m\ \ (dual \ complementary\ condition) \\ \frac{\partial L(w^{*}, \alpha^{*}, \beta^{*})}{w_{i}}=0 & i=1,...,d \\ \frac{\partial L(w^{*}, \alpha^{*}, \beta^{*})}{\beta_{i}}=0 & i=1,...,n \\ \end{cases}$

最低0.47元/天解锁文章