Task03 基于支持向量机的分类预测

1 支持向量机介绍

支持向量机(Support Vector Machine,SVM)常用于数据分类,也可以用于数据的回归预测中。
对于一个二分类,我们得到了以下两种分类器的决策边界(黑线和蓝线):
在这里插入图片描述
如果此时新加入一个属于红色数据点的新数据,黑色的线会把这个新的数据集分错,而蓝色的线不会。
以上的例子较为主观,客观地评判分类器的健壮性,我们需要引入一个概念:最大间隔。
最大间隔刻画着当前分类器与数据集的边界,以这两个分类器为例:
在这里插入图片描述
可以看到, 蓝色的线最大间隔是大于黑色的线的,所以我们会选择蓝色的线作为我们的分类器。
那么怎么知道那么,有没有更好的分类器,它具有更大的间隔?我们可以用SVM找到最优分类器。

在这里插入图片描述
我们将距离当前分类器最近的点,称之为支持向量(即上图圈出来的点)。
支持向量机为我们提供了在众多可能的分类器之间进行选择的原则,从而确保对未知数据集具有更高的泛化性。

1.1 软间隔

假设我们拿到的数据是这样子的:
在这里插入图片描述
这种情况并不容易找到最大间隔。
于是就引入了软间隔,相比于硬间隔而言,软间隔允许个别数据出现在间隔带中。
但是,如果没有一个原则进行约束,满足软间隔的分类器也会出现很多条。所以需要对分错的数据进行惩罚,SVC 函数中,有一个参数 C 就是惩罚参数。惩罚参数越小,容忍性就越大。
如C=1时:
在这里插入图片描述
C=0.2时:
在这里插入图片描述
可以看出惩罚参数 C=0.2 时,SVM 会更具包容性,从而兼容更多的错分样本。

1.2 超平面

有时数据可能没有办法利用线性分类器进行分类:
在这里插入图片描述
如果将二维(低维)空间的数据映射到三维(高维)空间中,便可以通过一个超平面对数据进行划分。
所以,我们映射的目的在于使用 SVM 在高维空间找到超平面的能力。
在这里插入图片描述
在 SVC 中,我们可以用高斯核函数来实现这以功能:kernel=‘rbf’
在这里插入图片描述
此时便完成了非线性分类。

2 SVM理论知识

2.1 SVM最优化问题

上一节我们知道SVM要使分类器的超平面与样本点的间隔最大化,对于任意超平面,可以使用线性方程描述:
在这里插入图片描述
在二维空间中,点(x,y)到直线Ax+By+C=0的距离公式为:
在这里插入图片描述
如果扩展到n维空间,点 x = (x1,x2 … xn)到直线wTx + b = 0的距离为:
在这里插入图片描述
其中在这里插入图片描述
上一节我们知道支持向量是距离超平面最近的样本点,将这个距离设为d,那么其他点到超平面的距离都会大于d,所以有公式:
在这里插入图片描述
不等式左右两边同时除以d,得到:
在这里插入图片描述
这里||w||d肯定是一个正数,为了方便推导和优化,可以令其等于1,因为一个常数对目标函数的优化(我们只关注符号变化)并不会有影响,因此有:
在这里插入图片描述
将两个方程合并,可简写为:
在这里插入图片描述
至此我们就可以得到最大间隔超平面的上下两个超平面:
在这里插入图片描述
每个支持向量到超平面的距离为:
在这里插入图片描述
在这里插入图片描述
可得
在这里插入图片描述
因此距离d又可以写成:
在这里插入图片描述
我们的目标就是最大化这个距离:
在这里插入图片描述
这里乘上 2 倍也是为了后面推导,对目标函数没有影响。
通过之前的合并方程,可以得到支持向量:
在这里插入图片描述
所以最大距离改写为:
在这里插入图片描述
转换为:
在这里插入图片描述
之前的公式知道||w||有一个根号,为了方便计算,可得:
在这里插入图片描述
所以我们最后需要最优化的问题为:
在这里插入图片描述

2.2 对偶问题

2.2.1 拉格朗日乘数法

高等数学中的拉格朗日乘数法是一个等式约束优化问题:
在这里插入图片描述
令:
在这里插入图片描述
函数L(x,λ)就称为拉格朗日函数,参数λ称为拉格朗日乘子。
问题需要我们利用必要条件找到可能的极值点:
在这里插入图片描述
当然具体是否为极值点需根据问题本身的具体情况检验。这个方程组称为等式约束的极值必要条件。
等式约束下的 Lagrange 乘数法引入了l个 Lagrange 乘子,我们将 xi和λk一起看作优化变量,共有(n+l)个优化变量。
不等式优化问题,其主要思想是将不等式约束条件转变为等式约束条件,引入松弛变量,将松弛变量也是为优化变量。
在这里插入图片描述
以我们的最优化问题为例:
在这里插入图片描述
这里引入ai2,得到:
在这里插入图片描述
这里加平方主要为了不再引入新的约束条件,如果只引入 ai 那我们必须要保证ai >0才能保证这里的h=0。
由此我们将

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值