支持向量机(二)

  之前的博文中,我们讨论了线性支持向量机。这里,我们讨论非线性的情况。

(1)样本集线性不可分,是说对于样本集(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_N,y_N),其中x_i\in R^d,y_i\in\left \{ +1,-1 \right \},不等式y_i(wx_i+b)-1\geqslant 0,(i=1,2,3...N)不可能被所有样本同时满足。

(2)当(1)中的问题存在时,即称为非线性可分。我们总可以在不等式的左侧加上一个正数\xi _i(我们称该数为松弛因子),使得不等式y_i(wx_i+b)-1+\xi_i\geqslant 0成立。如果样本x_j被正确分类,即y_i(wx_i+b)-1\geqslant 0,则\xi _i=0;如果样本x_j不能被正确分类,则这个样本对应的y_i(wx_i+b)-1< 0,则\xi _i>0

(3)我们在(2)的条件下重新设计支持向量机:

                                                \begin{Bmatrix} min &{}\frac{1}{2}||w||^2+c\sum_{i=1}^{N}\xi_{i},(i=1,2,3,4...N) \\ s.t.& y_i(wx_i+b)-1+\xi_i\geqslant0,\xi_{i}\geqslant0,(i=1,2,3,4...N)\\ \end{matrix}

  ①所有样本的松弛因子之和\sum_{i=1}^{N}\xi_{i},可以反映整个训练样本集的错分程度:错分样本越多,\sum_{i=1}^{N}\xi_{i}越大;样本错分程度越大,\sum_{i=1}^{N}\xi_{i}也越大。显然,我们希望\sum_{i=1}^{N}\xi_{i}尽可能小。因此,我们在线性可分情况下的目标函数\frac{1}{2}||w||^2上增加对错误的惩罚。

  ②新的目标函数反映了我们的两个目的:一方面希望分类间隔尽可能大,另一方面希望错分的样本尽可能少且错误程度尽可能低。

  ③c是一个需要选择的参数。c越小,表示对错误较容忍而强调对于正确分类的样本的分类间隔;c越大,表示对分类错误的惩罚越大。

(4)将原始问题转化为对偶问题,则有

                                       L(w,b,\xi,\alpha,\mu)={}\frac{1}{2}||w||^2+c\sum_{i=1}^{N}\xi_{i}-\sum_{i=1}^{N}\alpha_i(y_i(wx_i+b)-1+\xi_i)-\sum_{i=1}^{N}\mu_i\xi_i

  这里,\begin{matrix}\alpha_i\geqslant0,\mu_{i}\geqslant0,(i=1,2,3,4...N) \\ &\quad \\ \end{matrix}

  ①对偶问题同样是拉格朗日函数的极大极小问题,首先求L(w,b,\xi,\alpha,\mu)w,b,\xi的极小:

                                                                           \begin{Bmatrix} \bigtriangledown_{b}L(w,b,\xi,\alpha,\mu)=0&\quad\\ \bigtriangledown_{w}L(w,b,\xi,\alpha,\mu)=0 &\\ \bigtriangledown_{\xi}L(w,b,\xi,\alpha,\mu)=0 &\\ \end{matrix}

  可以得到:                                                             

                                                                              \begin{Bmatrix} \quad\sum_{i=1}^N}\alpha_{i}y_{i}x_{i}=w&\quad\\ \sum_{i=1}^{N}\alpha_{i}y_{i}=0&\\ c=\alpha_i+\mu_i \end{matrix}

  ②将(4)—①中的解代入L(w,b,\xi,\alpha,\mu)中,可以得到:

                                                   \underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu)=-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})+\sum_{i=1}^{N}\alpha_{i}

  ③再对\underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu)求关于α的极大值,则有对偶问题:

                                                    \begin{Bmatrix} max &-{}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})+\sum_{i=1}^{N}\alpha_{i} \\ s.t.& \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ,0\leqslant\alpha_{i}\leqslant c,(i=1,2,3,4...N)\\ \end{matrix}

  ④在分类时,分类正确但处于分类边界面上的样本,有0<\alpha_i< c,\xi_i=0。这些样本点就是离分类超平面最近的那些样本(支持 向量点),并决定最优超平面的位置。由以上叙述可求得解:

                                                                        \begin{Bmatrix} &w^*=\sum_{i=1}^{N}\alpha_{i}^*y_{i}x_{i}\\ & b^*=y_{j}-\sum_{i=1}^{N}\alpha_{i}^{*}y_{i}(x_{i}*x_{j})\\ \end{matrix} 

  上式求解的过程中,(x_{j},y_{j})是任意一个0<\alpha_i< c的样本点。

   ⑤原始问题构造的分离超平面可以写作:

                                                                             \sum_{i=1}^{N}\alpha_{i}^* *y_{i}(x*x_{i})+b^*=0       

    分类决策函数就可以写作:

                                                                    f(x)=sign(\sum_{i=1}^{N}\alpha_{i}^* *y_{i}(x*x_{i})+b^*)          

(5)关于非线性支持向量机的松弛因子问题讨论:

       一般来说,线性不可分问题在加入松弛变量后可以实现线性可分。其支持向量(x_j,y_j)可能是在间隔边界上,可能是在间隔边界与分离超平面中间,或者在分离超平面误分一侧。           

       若0<\alpha^*<c,则\xi_i=0,此时支持向量(x_j,y_j)恰好落在分类正确的间隔边界上及边界内;

       若\alpha^*=c,则0<\xi_i<1,此时支持向量(x_j,y_j)恰好落在分类正确的间隔边界与分离超平面之间;

       若\alpha^*=c,则\xi_i=1,此时支持向量(x_j,y_j)恰好落在分离超平面上;  

       若\alpha^*=c,则\xi_i>1,此时支持向量(x_j,y_j)恰好落在分离超平面误分一侧。

                                                    

                                                                   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值