笔记(总结)-SVM(支持向量机)的理解-2_向量机 csapp-优快云博客

本文链接：https://blog.youkuaiyun.com/BitCs_zt/article/details/79238114

上一篇我们讨论了SVM的建模由来与推导过程，最终得出了SVM的对偶问题和解的形式，不过这都基于一个重要前提，即样本集是线性可分的。为了解决线性不可分情况下的分类问题，我们引入soft margin SVM，即软间隔SVM。

为了处理上述情况，我们不再要求样本集全部位于“楚河汉界”外，放宽限制，允许数据点进入“楚河汉界”甚至错分，引入松弛变量 $\xi$ ，如下所示：
这里写图片描述
此时对应的约束条件为：

⎧ ⎩ ⎨ ⎪ ⎪ w T x + b \geq 1 - ξ, y i = 1 w T x + b \leq - 1 + ξ, y i = - 1 ξ i \geq 0

$\begin{cases} w^Tx+b\geq1-\xi, \ y_i=1 \\ w^Tx+b\leq-1+\xi, \ y_i=-1 \\ \xi_i \geq0 \end{cases}$

原问题转化为：

min12||w||2+C∑iξimin12||w||2+C∑iξi $\min \frac{1}{2} ||w||^{2} + C\sum_i \xi_i$

s.t. yi(wTxi+b)≥1−ξi, ξi≥0s.t. yi(wTxi+b)≥1−ξi, ξi≥0 $s.t. \ y_i(w^Tx_i+b) \geq1-\xi_i, \ \xi_i \geq0$

其中 $C$ 为惩罚因子，可以看到当 $C$ 取很大时，优化目标函数会导致 $xi_i$ 很小，尽量减小甚至避免越界和错分情况出现。当 $C$ 很小时，会一定程度上对越界和错分情况有所容忍。

将约束写成 $g_i\leq0$ 的形式，构造拉格朗日函数：

f(w)=12||w||2f(w)=12||w||2 $f(w)=\frac{1}{2}||w||^2$

gi(w)=1−ξi−yi(wTxi+b), hi(ξ)=−ξigi(w)=1−ξi−yi(wTxi+b), hi(ξ)=−ξi $g_i(w)=1-\xi_i-y_i(w^Tx_i+b), \ \ \ \ h_i(\xi) = -\xi_i$

L(w,α,β)=f(w)+∑iαigi(w)+∑iβihi(ξ)L(w,α,β)=f(w)+∑iαigi(w)+∑iβihi(ξ) $L(w,\alpha,\beta)=f(w)+\sum_i \alpha_i g_i(w)+\sum_i\beta_i h_i(\xi)$

推导对偶问题的过程同上一篇。极值在偏导为0处取到，令：

∂L∂w=0, ∂L∂b=0, ∂L∂ξi=0∂L∂w=0, ∂L∂b=0, ∂L∂ξi=0 $\frac{\partial L}{\partial w}=0, \ \frac{\partial L}{\partial b}=0, \ \frac{\partial L}{\partial \xi_i}=0$

得到：

w=∑iαiyixi, ∑iαiyi=0, C=αi+βiw=∑iαiyixi, ∑iαiyi=0, C=αi+βi $w=\sum_i \alpha_i y_i x_i, \ \sum_i \alpha_i y_i=0, \ C=\alpha_i+\beta_i$

代回原函数，得到对偶问题：

maxW(α)=∑iαi−12∑i∑jαiαjyiyjxTixjmaxW(α)=∑iαi−12∑i∑jαiαjyiyjxiTxj $\max W(\alpha)=\sum_i \alpha_i- \frac{1}{2}\sum_i\sum_j\alpha_i\alpha_j y_i y_j x_i^T x_j$

s.t. ∑iαiyi=0, 0≤αi≤Cs.t. ∑iαiyi=0, 0≤αi≤C $s.t. \ \sum_i \alpha_i y_i=0, \ 0\leq \alpha_i \leq C$

此时对应的KKT条件为：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ α i \geq 0 β i \geq 0 y i (w T x + b) \geq 1 - ξ i ξ i \geq 0 α i [1 - ξ i - y i (w T x + b)] = 0 β i (- ξ i) = 0

$\begin{cases} \alpha_i \geq0 \\ \beta_i \geq0 \\ y_i(w^Tx+b) \geq1-\xi_i \\ \xi_i \geq0 \\ \alpha_i[1-\xi_i-y_i(w^Tx+b)]=0 \\ \ \beta_i (-\xi_i) =0 \end{cases}$

可以看到，最终需要求解的 $W(\alpha)$ 与之前形式是一致的，不同的只是约束条件的变化。根据KKT条件对 $\alpha_i$ 进行讨论：

当 $\alpha_i>0$ ，有 $y_i(w^Tx+b)\geq 1-\xi_i$ ， $x_i$ 为支持向量
当 $\alpha_i<C$ ，有 $\beta_i>0$ ，推得 $\xi_i=0$ ， $x_i$ 在边界上
当 $\alpha_i=C$ ，有 $\beta_i=0$ ，此时 $\xi_i$ 大小不确定。当 $\xi_i>1$ 时，该样本被错误分类；当 $0\leq \xi_i \leq 1$ ，该样本在“楚河汉界内部”，被正确分类。