白板推导:SVM

支持向量机(SVM)

svm有三宝:间隔,对偶,核技巧。

svm又分成:hard margin svm;soft margin svm;kernel svm

间隔

svm思想:最大间隔分类器,f(x)=sign(w^{*}x+b^{*})

几何间隔:y_{i}(w^{T}x_{i}+b) \frac{1}{||w||}(点到直线的距离)

函数间隔:y_{i}(w^{T}x_{i}+b)

margin(w,b)=min_{w,b}distance(w,b,x_{i})=min_{w,b}\frac{1}{||w||}|w^{T}x_{i}+b|

对于所有的x,满足最近的x与分类平面最远。

即:max margin(w,b) 

max margin(w,b) = min_{w,b} \frac{1}{2}w^{T}w ,s.t. y_{i}(w^T+b)\geq 1,i=1...N

这是一个二次不等式凸优化。

hard margin svm

带约束优化目标:

max margin(w,b) = min_{w,b} \frac{1}{2}w^{T}w ,s.t. y_{i}(w^T+b)\geq 1,i=1...N

拉格朗日去约束:

min_{w,b}max_{\lambda }\pounds (w,b,\lambda);s.t \lambda _{i}\geqslant 0

\pounds (w,b,\lambda)=\frac{1}{2}w^{T}w+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(w^{T}x_{i}+b))

强对偶关系(线性二次凸优化问题满足强对偶):

max_{\lambda}min_{w,b}\pounds (w,b,\lambda);s.t \lambda _{i}\geqslant 0

后面的最小化拉格朗日函数可以先对b求导代入后再对w求导得到最优解w

最后优化函数变为:

max_{\lambda }-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j}+\sum_{i=1}^{N}\lambda _{i};s.t \lambda _{i}\geqslant 0;\sum_{i=1}^{N}\lambda_{i}y_{i}=0

===>

min_{\lambda }\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j}-\sum_{i=1}^{N}\lambda _{i};s.t \lambda _{i}\geqslant 0;\sum_{i=1}^{N}\lambda_{i}y_{i}=0

KKT条件<==>强对偶关系

\frac{\partial \pounds }{\partial b}=0;\frac{\partial \pounds }{\partial w}=0;\frac{\partial \pounds }{\partial \lambda }=0;偏导等于0

\lambda _{i}(1-y_{i}(w^{T}+b))=0;约束

\lambda _{i}\geqslant 0;

1-y_{i}(w^{T}+b)\leqslant 0;

之前已得到:w^{*}=\sum_{i=1}^{N}\lambda_{i}y_{i}x_{i},通过KKT条件可得x不为支持向量时λ为0,所以b^{*}=y_{k}-\sum_{i=1}^{N}\lambda_{i}y_{i}x_{i}^{T}x_{k};(x_{k},y_{k}为支持向量)为支持向量。

(KKT条件只是为了得到b的最优解和得出最优解和对新样本的预测只和支持向量有关的结论???)

之前得到最后的优化函数只有λ一个变量,使用SMO算法可求得。

soft margin svm

思想:数据并不可分或存在噪声,允许一点点错误。

损失函数的构造:min\frac{1}{2}w^{T}w+loss

①错误样本点的个数:

loss=\sum_{i=1}^{N}I(y_{i}(w^{T}x_{i}+b)<1)

损失函数是不连续的,无法求解。

②使用错误点的距离表示:

hinge loss=max(0,1-y_{i}(w^{T}x_{i}+b))

损失函数:

min_{w,b} \frac{1}{2}w^{T}w+c\sum_{i=1}^{N}\xi _{i}

s.t. y_{i}(w^{T}x_{i}+b)\geqslant 1-\xi _{i};\xi _{i}\geqslant 0

\xi _{i}=1-y_{i}(w^{T}x_{i}+b) 

求解过程和hard margin svm相同。

核方法背景介绍

kernel method:思想角度

kernel trick:计算角度

kernel function: (满足非线性转换的内积)。

1.非线性带来高维转换:对于严格的非线性,先进行给线性转换(模型角度)。

2.对偶表示带来内积,svm对偶表示后有样本内积的表示(优化角度)。

3.cover theorem:高维比低维更易线性可分。

正定核函数

核函数如果是正定核函数,则:

①对称性

②正定性:对应的gram matrix是半正定的。

或:K(x,z)=<\phi (x),\phi (z)>;Φ属于希尔伯特空间。

希尔伯特空间:完备的(对极限是封闭的),可能是无限维的,被赋予内积(对称性,正定性,线性)的线性空间。

视频地址:https://www.bilibili.com/video/av34731384/

                  https://www.bilibili.com/video/av28186618/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值