初探支持向量机

本文介绍了支持向量机(SVM),一种基于间隔最大化的二分类模型。SVM分为线性可分、线性和非线性支持向量机,通过核函数解决非线性问题。文章详细阐述了线性可分SVM的间隔最大化原理,软间隔的概念以及常用的核函数,如多项式和高斯核。最后,讨论了序列最小最优化(SMO)算法在解决SVM对偶问题中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

支持向量机

最近在复习机器学习的算法,今天来写一写支持向量机,作为一个自己学习的记录。


首先总体来分析一下支持向量机(SVM),支持向量机是一种二分类的模型。属于监督学习的一类。它的基本模型是定义在特征空间上的间隔最大的线性分类器。学习策略就是间隔最大化,可以形式化为一个求解凸二次规划的问题。它是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,能够达到在拥有样本量较少的情况下,能够获得良好统计规律。

支持向量机根据数据的不同大致可以分为:

  1. 线性可分支持向量机
    当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机
  2. 线性支持向量机
    当训练数据接近线性可分时,通过软间隔最大化,学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机
  3. 非线性支持向量机
    当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机

接下来我分别介绍上面的三种:

1.线性可分支持向量机
当训练数据集线性可分时,存在无穷多个分离超平面可将两类数据正确分开,感知机利用吴分类最小的策略求的分离超平面,不过这个时候可以得到无穷多个解,而线性可分支持向量机利用间隔最大化来求最优分离超平面,这个时候,得到的解是唯一的,这也是支持向量机有别与感知机的点。
对于SVM来说存在一个唯一的分类超平面能够使两个点集到此平面的最小距离最大(间隔最大化),就像右图显示的一样、
对于SVM来说存在一个唯一的分类超平面能够使两个点集到此平面的最小距离最大(间隔最大化),就像右图显示的一样
首先我们来看看什么是间隔,

1.,1 函数间隔和几何间隔
一般来说,一个点距离分类超平面的远近可以表示为分类预测的确信程序,在超平面w*x+b =0 确定的情况下,|w*x+b|能够相对地表示点x到超平面的远近,而w*x+b的符号与类标记y的符号是否一致能够表示分类是否正确,所以可以用y*(w*x+b)来表示分类的正确性及确信度,而这个也就是所谓的函数间隔的概念。(定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yixi,yi)的函数间隔之最小值,即

γ^i=mini=1,2Nγ^iγ^i=mini=1,2−−−Nγ^i
) 通过上面的介绍我们知道支持向量机需要找到一个最大间隔的分类超平面,显然函数间隔(functional margin)不能满足要求,因为只要成比例的改变w 和 b,例如将他们改成2w和2b,超平面并没有改变,但函数间隔却成为原来的2倍,所以需要对分离超平面的法向量w加某些约束,使得间隔是确定的,这时函数间隔就成为了几何间隔。
这里写图片描述
对于一个点X,令其垂直投影到超平面上的对应的为 x0x0 ,由于W 是垂直与超平面的一个向量, γγ 为样本X 到分类间隔的距离,我们有
x=x0+γωωx=x0+γω‖ω‖
又由于 x0x0 是超平面上的点,满足 f(x0)=0f(x0)=0 ,带入超平面方程可算出
γ=ωTx+bω=f(x)ωγ=ωTx+b‖ω‖=f(x)‖ω‖

从上面的定义我们也可以得出函数间隔和几何间隔的关系: γ=γ^ωγ=γ^‖ω‖ ,所以对于几何间隔,成比例的改变 w 和 b (超平面没有改变),函数间隔也按照比例改变,而几何间隔不变。
1. 2 支持向量和间隔边界
在线性可分情况下,训练数据集的样本点与分离超平面距离最近的样本点的实例成为支持向量(support vector)。

1.3. 间隔最大
间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类,也就是说,不仅将正负实例点分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将他们分开,这样的超平面应该对未知的新实例有很好的分类预测能力。所以最大间隔分离超平面具体的,可以表示为下面的最优化问题:

maxw,bγ、maxw,bγ
s.tyiωωxi+bωγs.tyi(ω‖ω‖∗xi+b‖ω‖)≥γ

将上面的函数间隔转变成几何间隔,及最优化问题转变成:
minw,b12ω2minw,b12‖ω‖2
s.tyi(wixi+b)=10,i=1,2,3,,,Ns.tyi(wi∗xi+b)=1≥0,i=1,2,3,,,N

对于上式的优化问题,应用拉格朗日对偶性,将问题转化为对偶问题,这样做的有点是,一对偶问题往往更容易求解,二自然引入核函数,进而推广到非线性分类问题。首先构造拉格朗日函数,

L(ω,α,b)=12ω2i=0nαiyi(ωxi+b)+i=0nαiL(ω,α,b)=12‖ω‖2−∑i=0nαiyi(ω∗xi+b)+∑i=0nαi
,其中 α=(α1,,,αn)α=(α1,,,αn) 为拉格朗日乘子。根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值