6.1间隔与支持向量
线性分类器回顾:在样本空间寻找一个超平面,将不同类别的样本分开。
如何找到最中间的超平面
间隔与支持向量:
支持向量:距离超平面最近的几个训练样本。间隔:即距离。
6.2对偶问题
拉格朗日乘子法,解决凸优化问题,求最大间隔。
《非常简单》——>看南瓜书
解出α后,求出ω与b即可得到模型:
从对偶问题解出的αi是拉格朗日乘子,它对应训练样本(xi,yi)。有不等式约束,所有要满足KKT条件
于是对于任意训练样本(xi,yi),总有αi=0或yif(xi)=1,若αi=0,则该样本不会在求和中出现,也就不会对f(x)有任何影响。
若αi>0,则必有yif(xi)=1,所对应的样本点位于最大间隔边界上,是一个支持向量。
于是,显示出支持向量机一个重要的性质:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。
6.3核函数
本章讨论假设样本线性可分,即存在一个划分超平面能将训练样本正确分类。然而在现实任务中,原始样本空间内也许不存在一个能正确划分两类样本的超平面。
例如,“异或”问题就不是线性可分的。
歪题:图灵奖得主带头唱衰神经网络/感知机,就是因为连简单的异或问题单层感知机都解决不了。
诸如异或问题就不是在原空间的一个线性超平面能划分的了,要怎么解决呢?
——高维特征空间
在高维空间内,原来看起来杂乱无章的点都是可以线性分隔开的。
问题:两个无限维向量的点积,计算开销极大。
解决:将在高维空间内求向量点积转化为在低维空间对核函数求值。
常用核函数:
6.4软间隔与正则化
在前面的讨论中,我们一直假定训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分开.然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.
缓解该问题的一个办法是允许支持向量机在一些样本上出错。为此,要引入 “软间隔”(soft margin)的概念。
具体来说,前面介绍的支持向量机形式是要求所有样本均满足约束(6.3),即所有样本都必须划分正确,这称为“硬间隔”(hard margin) ,而软间隔则是允许某些样本不满足约束。
正则化可理解为一种“罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。从贝叶斯估计的角度来看,正则化项可认为是提供了模型的先验概率。参见1 1 .4节
6.5支持向量回归
支持向量回归(Support Vector Regression,简 称 SVR)假设我们能容忍f(x)与y 之间最多有6 的偏差,即仅当f(x) 与 y 之间的差别绝对值大于e 时才计算损失。如图6.6所示,这相当于以/f(x) 为中心,构建了一个宽度为2e的间隔带,若训练样本落入此间隔带,则认为是被预测正确的。