(本文介绍什么是SVM,SVM推导公式等。所有内容来自Anrew Ng教程)
SVM(support vector machine)是一种二分类模型,其基本模型定义是期望特征空间上分类间隔最大的线性分类器。
1.1 SVM起源-函数间隔和几何间隔
首先我们考虑,在逻辑回归中(可参见前面逻辑回归章节内容),数据被分类为正样本的概率被表示为 p(y=1|x;θ)=hθ(x)=g(θTx) 。那么对于一个新样本数据,如果有 hθ(x)≥0.5 ,或者说有 θTx≥0 时,我们就认为该样本属于“正样本”,拥有标签“1”,相反,则样本属于“负样本”,拥有标签“0”。实际上,如果 θTx 越大,根据sigmod函特性, hθ(x)=p(y=1|x;θ) 就会越大,说明该样本被分类为“正样本”的把握(概率)越大。所以对于逻辑回归的非正式说法可以表达为:对于给定的若干个训练数据,我们期望求得一个参数 θ 使得对于“正样本”( y(i)=1 )有 θTx(i)≫0 ,而对于“负样本”( y(i)=0 )有 θTx(i)≪0 ,满足这样条件的参数 θ 我们才会有更大的把握使得训练集中的样本都被正确归类。这个概念和后文中提到的“函数间隔”是相通的。
从另外一个角度来考虑,观察下图,实线表示样本点分类界面,叉号点表示“正样本”点,“圆圈”点表示“负样本”点。对于图示中的三个点,我们可以说,点A距离决策边界是最远的,如果对A附近的点进行类别预测,我们将有足够的把握说该样本属于“正样本”;而对于样本点C,距离决策边界是最近的,当决策边界稍微发生偏移,将会影响该样本点的类别判定,所以说对于样本点C被分类为“正样本”这件事,我们的把握是很小的;而样本点B距离决策面的距离介于样本点A和样本点C之间,对于该样本点被分类为“正样本”的把握自然介于A和C之间。总结上面的说法,对于给定的训练数据,我们期望寻找一个分界面,使得我们有足够的把握使得所有样本被正确分类,按照上面的推理说法,我们期望所有样本点距离分界面的距离越远越好。这种说法刚好对应于后文提到的“几何间隔”的概念。
接下来,我们将函数间隔和几何间隔进行数学描述,在这之前,首先对分类问题的数学表达进行重新描述。
考虑二分类问题,寻找线性分类器 wTx+b=0 对数据进行分类,数据标签为 y∈{
1,−1} 。则分类器模型为(注意在线性回归和逻辑回归中,我们使用的模型参数都是 θ ,但这里用 w和b 代替 θ ),
且有,当 z≥0 时有 g(z)=1 ;当 z<0 时有 g(z)=−1 。与逻辑回归不同的是,这里我们并没有使用sigmod函数,通过分类概率来分析样本的所属类别,而是直接通过符号对类别标签预测为1或者-1。
1.1.1 函数间隔
给定训练集 S=(x(i),y(i)),i=1,⋯,m ,定义函数间隔为 γ^(i)=y(i)(wTx+b) 。当有 y(i)=1 时,如果我们期望函数间隔尽可能大(此时样本被正确分类具有较大把握),就需要使得 wT+b 为一个较大的正数;类似的,当有 y(i)=−1 时,如果我们期望函数间隔尽可能大,就需要使得 wT+b 为一个绝对值较大的负数。总而言之,如果有 y(i)(wTx+b)>0 ,则有所有样本被正确分类,而函数间隔越大,则样本被正确分类的把握越大。
那么,给定一个训练集 S=(x(i),y(i)),i=1,⋯,m ,定义训练集S的函数间隔为所有样本中最小的函数间隔,即

本文深入探讨了支持向量机(SVM)的概念,包括函数间隔与几何间隔,以及它们在分类问题中的作用。SVM旨在找到最大化样本点到决策边界的几何间隔的线性分类器。通过拉格朗日对偶问题和KKT条件,SVM能够解决带约束的优化问题,找到最优分类边界。支持向量是距离分类边界最近的样本,它们在SVM模型中起到关键作用。
最低0.47元/天 解锁文章
3490

被折叠的 条评论
为什么被折叠?



