支持向量机专题——线性支持向量机

线性支持向量机用于近似线性可分数据的分类,通过软间隔允许一定程度的误分类。推导过程涉及引入松弛变量ξi,优化合页损失函数以平衡间隔最大化和误分类最小化。支持向量是决定模型的关键,它们与间隔边界的关系决定了分类效果。合页损失函数确保了模型对异常点的鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文

线性支持向量机

简介

当数据线性不可分时,使用硬间隔支持向量机很难得到理想的结果。但是如果数据近似线性可分,可以采用软间隔支持向量机(线性支持向量机)进行分类。这通常适用于有少量异常样本的分类,如果使用线性支持向量机,它会尽量使得所有训练样本都正确,如下图所示。

显然这并不是最好的结果,软间隔支持向量机可以权衡“间隔最大”和“误分类点最少”,得到以下结果。

推导

基于线性可分支持向量机,我们增加一个可”容忍“不满足函数间隔大于1的约束条件的考虑。即引进一个松弛变量 ξi0 ,使约束条件变为

yi(ωxi+b)1ξi

同时,修改代价函数(目标函数)为

12||ω||2+Ci=1Nξi

接下来的步骤就和线性支持向量机一样,解一个凸二次规划问题

minω,b,ξ12||ω||2+Ci=1Nξi

s.t.yi(ωxi+b)1ξi,i=1,2,3,...,N

ξi0,i=1,2,3,...,N

根据拉格朗日的对偶性,上述凸二次规划问题的拉格朗日函数是

L(ω,b,ξ,α,μ)=12||ω||2+Ci=1Nξii=1Nαi(yi(wxi+b)1+ξi)i=1Nμiξi

其中 αi0 , μi0

原始问题的对偶问题是拉格朗日函数的极大极小问题,先求 L(ω,b,ξ,α,μ) ω,b,ξ 的极小,再求 minω,b,ξL(ω,b,ξ,α,μ) α 的极大,可以得到原始问题的对偶问题为

minα12i=1Nj=1Nαiαjyiyj(xixj)i=1Nαi

s.t.i=1Nαiyi=0

0αiC,i=1,2,...,N

α=(α1,α2,...,αN) 是对偶问题的一个解,则有

ω=i=1Nαiyixi

b=yji=1Nyiαi(xixj)

其中,j为使得 0<αj<C 成立的一个值。

支持向量

对偶问题的解 α=(α1,α2,...,αN) 中对应于 αi>0 的样本点 (xi,yi) 的实例 xi 称为支持向量(软间隔的支持向量),实例 xi 到间隔边界的距离为 ξi||ω||

软间隔的支持向量要么在间隔边界上, 要么在间隔边界和分离超平面之间,要么在分离超平面误分一侧。

αi<C 则必有 ξi=0 ( Cμiαi=0 μiξi=0 ),这时候支持向量在间隔边界上;若 αi=C,0<ξi<1 ,则分类正确,支持向量在间隔边界与分离超平面之间;若 αi=C,ξi=1 ,则 xi 在分离超平面上;若 αi=C,ξi>1 ,则 xi 位于分离超平面误分一侧

合页损失函数

线性支持向量机学习还有一种类似于逻辑回归,线性回归等算法的学习方式,同样是最小化一个目标函数

i=1N[1yi(ωxi+b)]++λ||ω||2

[Z]+ 表示以下取正值的函数

[Z]+={0,z0z,z>0

合页损失函数的意思是,若正确分类,且函数间隔大于1时损失为0;否则,损失为 1y(ωx+b) ,这也就是说,合页损失函数不仅仅只在乎分类的正确性,而且还要使确信度足够高,这也就意味着,当样本足够时,它会自动“过滤”一些异常点,不会使得少量的异常点对结果产生影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值