参考:
1, 西瓜书
2,https://www.cnblogs.com/massquantity/p/10920043.html
1,给定训练样本集D = {(,
), (
,
), ... (
,
)},
{-1, +1}, i = 1, 2, ..., m
现在要找一个超平面,使得对于任意的(
,
)
D,有:
2,支持向量
使得等式或者
成立的向量(一个样本)称为支持向量;
也就是在超平面和
上的向量称为支持向量;
如下图红色箭头所指,共有三个支持向量

3,间隔
超平面 到超平面
的距离称为间隔。
也可以看成是超平面上的一点x'到
的距离,由点到超平面的距离公式,间隔为:
又
则间隔为
4,基本型问题
基本型问题的想法是“使得间隔最大化”,也就是“使得间隔倒数最小化”,有优化问题:
这就是svm的基本型问题;
5,将基本型问题的转换为对偶问题
转换的原因:基本型问题带不等式约束,难以求解,转换为不带约束的对偶问题,比较好求解;
令
则Lagrange函数为:
则其对偶问题为:
也就是:
由优化理论,如果原问题为:
则其对偶问题为:
其中,
,
则原问题:
的对偶问题为:
inf是下确界的意思,可以直接写成min,于是对偶问题改写为:
上式内层对 (w,b) 的优化属于无约束优化问题,则令偏导等于零:
和
即有:
将上两式代入:
消去了w,b,最终得到了无约束的对偶问题:
6,的求解
解出后,利用前面w和alpha的关系,得到:
仅与支持向量有关:
由KKT条件中的互补松弛条件可以知道
若,对应的样本不会在模型
起任何作用,该样本可以是支持向量,也可以不是支持向量;
当时,
,说明这些样本
为支持向量,于是:
其中SV是所有支持向量下标的集合;
7,b的求法
8,预测
9,猜测
原问题转换为对偶问题后,再加上KKT条件(与对偶问题中的有关)的约束,发现模型只与支持向量有关。即使用对偶问题+KKT,解出支持向量,就可以得到模型,这大概是将原问题转换为对偶问题的原因。
软间隔与正则化
10,提出问题
训练集在样本空间或者特征空间中往往线性不可分;
精心设计一个核函数使训练集在特征空间中线性可分,很可能导致过拟合;
11,缓解的办法
允许支持向量在一些样本上出错,引入“软间隔”。
12,软间隔支持向量机的原问题
13,转换为对偶问题 + KKT条件
a)写出拉格朗日函数
b)写出对偶问题
c)化掉内层
上面内层是无约束问题,对
的偏导为0,则可得:
上面3个式子代入b,对偶问题化简为:
且必须满足KKT条件:
互补松弛:
原始问题可行性:
对偶问题可行性:
拉格朗日平稳性:
14,对进行分析,求w和b
a) = 0
对应的样本不会在模型起任何作用,该样本可以是支持向量,也可以不是支持向量;
b)
由,可知
,再由KKT中的
,可知
再由KKT条件中的互补松弛条件
可知
即
,该样本在分类间隔边界上:

c)
由,可知
,再由KKT中的
,
任意大小;
则
若,由
,得

若 ,

若 ,

若 ,

最终,只与支持向量有关:
b的求法:

1232

被折叠的 条评论
为什么被折叠?



