机器学习算法——支持向量机SVM(软间隔)

本文讨论了在实际任务中如何通过引入软间隔概念来处理支持向量机的线性不可分问题,以及如何通过调整C值平衡分类正确性和允许的错误数量,以减少过拟合风险。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言

如果假定训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分开。然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分。退一步说,即使恰好找到了某个核函数使训练样本在特征空间中线性可分,也很难判定这个貌似线性可分的结果不是由于过拟合造成的。

缓解该问题的方法就是要引入“软间隔”概念,即允许支持向量机在一些样本上出错

一、软间隔

上图是软间隔的示意图,红色圈出来的点是分类错误的点,在错误最小化的同时也能找到间隔最大的超平面。对比之下,我们知道线性支持向量机要求所有样本都分类正确,即:

这个称为“硬间隔”。所谓“软间隔”就是要求不要那么严格,允许出现少量的样本会分类错误。当然也不能太“软“”,所以软间隔支持向量机的目标是最大化间隔的同时分错的点尽可能少,即目标函数为:

二、软间隔SVM模型

引入损失函数后,模型可以度量分类错误的程度大小,而软间隔SVM采用hinge损失:Loss( z) =max ( 0,1-z) , z= y_{i} ( w^{T}x_{i}+ b ) 。此时目标函数改写为:

C > 0是惩罚系数,表示损失的权重。C无穷大时,要使得损失最小,只能使得max(0,1-y_{i}(w^{T}x_{i}+b))=0

即所有样本都要分类正确;C为0时,引入的损失毫无意义;故而C为一定值时,允许一些样本分类错误。如果我们令:

可能出现两种情况:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值