之前的博文中,我们讨论了线性支持向量机。这里,我们讨论非线性的情况。
(1)样本集线性不可分,是说对于样本集,其中
,不等式
不可能被所有样本同时满足。
(2)当(1)中的问题存在时,即称为非线性可分。我们总可以在不等式的左侧加上一个正数(我们称该数为松弛因子),使得不等式
成立。如果样本
被正确分类,即
,则
;如果样本
不能被正确分类,则这个样本对应的
,则
。
(3)我们在(2)的条件下重新设计支持向量机:
①所有样本的松弛因子之和,可以反映整个训练样本集的错分程度:错分样本越多,
越大;样本错分程度越大,
也越大。显然,我们希望
尽可能小。因此,我们在线性可分情况下的目标函数
上增加对错误的惩罚。
②新的目标函数反映了我们的两个目的:一方面希望分类间隔尽可能大,另一方面希望错分的样本尽可能少且错误程度尽可能低。
③c是一个需要选择的参数。c越小,表示对错误较容忍而强调对于正确分类的样本的分类间隔;c越大,表示对分类错误的惩罚越大。
(4)将原始问题转化为对偶问题,则有
这里,
①对偶问题同样是拉格朗日函数的极大极小问题,首先求对
的极小:
可以得到:
②将(4)—①中的解代入中,可以得到:
③再对求关于α的极大值,则有对偶问题:
④在分类时,分类正确但处于分类边界面上的样本,有。这些样本点就是离分类超平面最近的那些样本(支持 向量点),并决定最优超平面的位置。由以上叙述可求得解:
上式求解的过程中,是任意一个
的样本点。
⑤原始问题构造的分离超平面可以写作:
分类决策函数就可以写作:
(5)关于非线性支持向量机的松弛因子问题讨论:
一般来说,线性不可分问题在加入松弛变量后可以实现线性可分。其支持向量可能是在间隔边界上,可能是在间隔边界与分离超平面中间,或者在分离超平面误分一侧。
若,则
,此时支持向量
恰好落在分类正确的间隔边界上及边界内;
若,则
,此时支持向量
恰好落在分类正确的间隔边界与分离超平面之间;
若,则
,此时支持向量
恰好落在分离超平面上;
若,则
,此时支持向量
恰好落在分离超平面误分一侧。