模式识别与机器学习 | 第七章 支持向量机

线性支持向量机/核支持向量机

间隔

分类器的置信度:

  • 概率 p(y=1|x)=\frac{1}{1+e^{-w^Tx}},w^Tx越大,y=1概率越大
  • 点到分离超平面H的距离反映了置信度

函数间隔:样本(x^i,y^i),它到(w,b)确定的超平面函数间隔

                        \hat{r}^i=y^i(w^Tx^i+b)\\y^i(w^Tx^i+b)>0:1+/(-1)-模型对样本的预测正确

                   大的函数间隔->确信正确的预测

            训练数据集的函数间隔,所有样本里最小的那个

几何间隔:

         点到决策界面(直线wx+b=0)的距离\hat{r}^i=y^i(\frac{w^T}{\left \| w^2 \right \|}x^i+\frac{b}{\left \| w^2 \right \|})

最优间隔分类器:间隔最大化

         max \ r \\ s.t.\ y^i((\frac{w}{\left \| w\right \|_2})^Tx^i+\frac{b}{\left \| w \right \|_2})\geq r\\

线性SVM(原始)

输入:数据集S

输出:判别函数 f_{w,b}(x)=sign((w^*)^Tx+b)

           判别届面/分离超平面(w^*)^Tx+b^*=0

参数w,b通过解决最优化间隔分类器问题

          min \ \frac{1}{2}\left \| w \right \|^2_2 \\ s.t.\ y^i(w^Tx^i+b)\geq r\\

其中  支持向量 y(w^Tx+b)=1线性可分情况下,至少有两个不同类别的点在边界上

          函数间隔\hat{\gamma }=1

          几何间隔 \gamma =\frac{1}{\left \| w\right \|_2}

          间隔 \frac{2}{\left \| w\right \|_2} 

拉格朗日

约束条件

        \underset{w}{min} \ f(w)\\ s.t. \ g_i(w)\leq 0; h_i(w)=0

广义拉格朗日函数(求解偏导为0)

              L(w,\alpha ,\beta )=f(w)+\sum _{i=1}^k\alpha_i g_i(w)+\sum _{i=1}^l\beta _ih_i(w),\alpha >0

拉格朗日对偶(原问题与对偶问题):

           d^*=\underset{\alpha ,\beta ;\alpha >0}{max}\underset{w}{min}L(w,\alpha ,\beta )\leq min \ max L(w,\alpha ,\beta )=p^*

          原问题为凸函数时,严格满足,可取“=”

         w^*,\alpha ^*,\beta ^*满足Karush-Kuhn-Tucker(KKT)条件:

             \frac{\partial L(w^*,\alpha ^*,\beta ^*)}{\partial w_i}=0\\ g_i(w^*)\leq 0\\ h_i(w^*)=0\\ \alpha ^*_ig_i(w^*)= 0,\alpha_i \leq 0  kkT对偶互补性

最有间隔分类器 : 对偶解

   利用KKT对偶互补性条件  \alpha ^*_ig_i(w^*)= 0 \rightarrow \alpha_i = 0/g_i(w^*)= 0

   支持向量的数量远小于训练样本的数目!

  •    固定α,有关于参数w,b最小化L得到\theta _D(\alpha )=\underset{w,b}{min}L(w,b,\alpha )

           最大化θ,得到对偶问题最优解 d*  

   拉格朗日函数

            L(w,\alpha ,\beta )=\frac{1}{2}\left \| w \right \|_2^2+\sum _{i=1}^N\alpha_i[y^i(w^T+b)-1]

            求解w,b:  对w求偏导:\frac{\partial L}{\partial w}=w-\sum \alpha _iy^ix^i=0

                            对b求偏导:\frac{\partial L}{\partial b}=\sum \alpha _iy^i=0

             带入拉格朗日函数:\theta (\alpha )=\sum _{i=1}^N\alpha_i-\frac{1}{2}\sum _{i,j=1}^Ny^iy^j\alpha_i \alpha_j(x^i)^Tx^j

线性SVM(对偶)

输入:数据集S

输出:判别函数 f_{w,b}(x)=(w^*)^Tx+b^*

           判别届面/分离超平面(w^*)^Tx+b^*=0

  •  通过求解对偶问题得到最优解α*

            \underset{\alpha }{max}\ \sum _{i=1}^N\alpha_i-\frac{1}{2}\sum _{i,j=1}^Ny^iy^j\alpha_i \alpha_j(x^i)^Tx^j\\ s.t.\ \alpha _i\geq 0,\sum \alpha _ig^i=0

  •     得到原问题最优解w*,b*

           w^*=\sum \alpha_i ^*y^ix^i, b^*=y^j-\sum \alpha_i ^*y^i(x^i)^Tx^j

软间隔

存在线性不可分的情况(有离群点或者噪声样本)但整体大部分仍可分              

Hinge损失:min \ \frac{1}{2}\left \| w \right \|^2_2 +C \sum_{i=1}^{N}max\{0,1-{y_i(w^Tx^i+b)\}}

引入松驰变量ξ

                min \ \frac{1}{2}\left \| w \right \|^2_2 +C\sum_{i=1}^N\xi _i \\ s.t.\ y^i(w^Tx^i+b)\geq 1-\xi_i,\ \xi_i>0          

  •  软间隔对偶问题

            拉格朗日函数

                L(w,b,\xi,\alpha ,\eta )=\frac{1}{2}\left \| w \right \|_2^2+C\sum \xi_i-\sum _{i=1}^N\alpha_i[y^i(w^T+b)-1+\xi_i]-\sum \eta _i\xi_i

            固定α、η,求w,b,ξ,最小化L(求偏导,偏导为0),得到       

                 \theta (\alpha )=\sum _{i=1}^N\alpha_i-\frac{1}{2}\sum _{i,j=1}^Ny^iy^j\alpha_i \alpha_j(x^i)^Tx^j

            最大化θ,得到最优值d*、η,

   ps. C表示惩罚程度:C较大惩罚重;小则惩罚松,可以容忍分错

非线性可分SVM(对偶问题)

输入:数据集S

输出:判别函数,分类超平面

  •  选择参数C,通过求解对偶问题,得到最优解α*

            \underset{\alpha }{max}\ \sum _{i=1}^N\alpha_i-\frac{1}{2}\sum _{i,j=1}^Ny^iy^j\alpha_i \alpha_j(x^i)^Tx^j\\ s.t.\ 0\leq \alpha _i\leq C,\sum \alpha _ig^i=0

  •     得到原问题最优解w*,b*

           w^*=\sum \alpha_i ^*y^ix^i, b^*=y^j-\sum \alpha_i ^*y^i(x^i)^Tx^j

  •    判别函数 f_{w,b}(x)=(w^*)^Tx+b^*

           分离超平面(w^*)^Tx+b^*=0

非线性SVM-核函数

利用核函数,将低维->高维,非线性变成线性可分

                 

  • 非线性变换 z=\phi (x),将原来线性SVM问题中的x  -> Φ(x)
  • 核函数:K(x^i,x^j)=(\phi (x^i))^T\phi (x^j)
  • 核技巧:学习和预测时,选择使用核函数K(x,z);学习过程在映射后得空间进行
  • 核函数定理:x输入空间,k是x*x的对称的函数

                 K( , )是核函数  当且仅当 对任意数据D,Gram矩阵总是半正定的

                           

常用核函数:

  • 多项式核    K(x,z)=(x^Tz+1)^p

               p=2   K(x,z)=x_1^2z_1^2+x_2^2z_2^2+2x_1z_1x_2z_2+2x_1z_1+2x_2z_2+1

               映射函数\phi (x)=(1,\sqrt 2 x_1,\sqrt 2 x_2,x_1^2,x_2^2)^T

               多项分类器 f(x)=sgn(\sum \alpha _i^*y^i((x^i)^Tx^i+1)^p+b^*)

  • 高斯核函数 K(x,z)=e^{-\frac{\left \| x-z \right \|^2}{2\sigma ^2}}

        g(x)K(x,z)g(z)仍是核函数,g(.)是任意函数

         高斯核应用广, 超参少,有限维  -> 无限维

        

--

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值