支持向量机（二）

最新推荐文章于 2025-06-02 18:39:57 发布

原创最新推荐文章于 2025-06-02 18:39:57 发布 · 407 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

32 篇文章

订阅专栏

之前的博文中，我们讨论了线性支持向量机。这里，我们讨论非线性的情况。

（1）样本集线性不可分，是说对于样本集 $(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_N,y_N)$ ，其中 $x_i\in R^d,y_i\in\left \{ +1,-1 \right \}$ ，不等式 $y_i(wx_i+b)-1\geqslant 0,(i=1,2,3...N)$ 不可能被所有样本同时满足。

（2）当（1）中的问题存在时，即称为非线性可分。我们总可以在不等式的左侧加上一个正数 $\xi _i$ （我们称该数为松弛因子），使得不等式 $y_i(wx_i+b)-1+\xi_i\geqslant 0$ 成立。如果样本 $x_j$ 被正确分类，即 $y_i(wx_i+b)-1\geqslant 0$ ，则 $\xi _i=0$ ；如果样本 $x_j$ 不能被正确分类，则这个样本对应的 $y_i(wx_i+b)-1< 0$ ，则 $\xi _i>0$ 。

（3）我们在（2）的条件下重新设计支持向量机：

$\begin{Bmatrix} min &{}\frac{1}{2}||w||^2+c\sum_{i=1}^{N}\xi_{i},(i=1,2,3,4...N) \\ s.t.& y_i(wx_i+b)-1+\xi_i\geqslant0,\xi_{i}\geqslant0,(i=1,2,3,4...N)\\ \end{matrix}$

①所有样本的松弛因子之和 $\sum_{i=1}^{N}\xi_{i}$ ，可以反映整个训练样本集的错分程度：错分样本越多， $\sum_{i=1}^{N}\xi_{i}$ 越大；样本错分程度越大， $\sum_{i=1}^{N}\xi_{i}$ 也越大。显然，我们希望 $\sum_{i=1}^{N}\xi_{i}$ 尽可能小。因此，我们在线性可分情况下的目标函数 $\frac{1}{2}||w||^2$ 上增加对错误的惩罚。

②新的目标函数反映了我们的两个目的：一方面希望分类间隔尽可能大，另一方面希望错分的样本尽可能少且错误程度尽可能低。

③c是一个需要选择的参数。c越小，表示对错误较容忍而强调对于正确分类的样本的分类间隔；c越大，表示对分类错误的惩罚越大。

（4）将原始问题转化为对偶问题，则有

$L(w,b,\xi,\alpha,\mu)={}\frac{1}{2}||w||^2+c\sum_{i=1}^{N}\xi_{i}-\sum_{i=1}^{N}\alpha_i(y_i(wx_i+b)-1+\xi_i)-\sum_{i=1}^{N}\mu_i\xi_i$

这里， $\begin{matrix}\alpha_i\geqslant0,\mu_{i}\geqslant0,(i=1,2,3,4...N) \\ &\quad \\ \end{matrix}$

①对偶问题同样是拉格朗日函数的极大极小问题，首先求 $L(w,b,\xi,\alpha,\mu)$ 对 $w,b,\xi$ 的极小：

$\begin{Bmatrix} \bigtriangledown_{b}L(w,b,\xi,\alpha,\mu)=0&\quad\\ \bigtriangledown_{w}L(w,b,\xi,\alpha,\mu)=0 &\\ \bigtriangledown_{\xi}L(w,b,\xi,\alpha,\mu)=0 &\\ \end{matrix}$

可以得到:

$\begin{Bmatrix} \quad\sum_{i=1}^N}\alpha_{i}y_{i}x_{i}=w&\quad\\ \sum_{i=1}^{N}\alpha_{i}y_{i}=0&\\ c=\alpha_i+\mu_i \end{matrix}$

②将（4)—①中的解代入 $L(w,b,\xi,\alpha,\mu)$ 中，可以得到：

$\underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu)=-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})+\sum_{i=1}^{N}\alpha_{i}$

③再对 $\underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu)$ 求关于α的极大值，则有对偶问题：

$\begin{Bmatrix} max &-{}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})+\sum_{i=1}^{N}\alpha_{i} \\ s.t.& \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ,0\leqslant\alpha_{i}\leqslant c,(i=1,2,3,4...N)\\ \end{matrix}$