目录
6.1 间隔和支持向量
给定训练样本集,分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,但能将训练样本分开的划分超平面可能有很多,如下所示:
直观上看,应该去找位于两类训练样本“正中间”的划分超平面,该超平面对训练样本局部扰动的“容忍”性最好,也就是该划分超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强。划分超平面的线性方程如下所示:
其中为法向量,决定了超平面的方向;b bb为位移项,决定了超平面与原点之间的距离,下面定义样本空间中任意点x xx到超平面( ω , b )的距离,如下所示:
假设超平面( ω , b ) 能将训练样本正确分类,有如下定义:
如下图所示,距离超平面最近的这几个训练样本点使上式的等号成立,这些点被称为“支持向量”,两个异类支持向量到超平面的距离之和为,也被称为“间隔”。
欲找到具有“最大间隔”的划分超平面,需要找到满足约束条件的参数ω和b,使得γ最大,即
最大化 ,等价于最小化
,于是得到如下表达,这也是支持向量机的基本型。
虽然间隔看着貌似只与ω有关,但实际上b bb通过约束隐式地影响着ω的取值,因为这些支持向量是使得等号成立的样本点,所以如果b发生变化,那么ω也会发生变化。
6.2 对偶问题
SVM基本型的对偶问题是将原始问题的最小化目标函数转换为最大化拉格朗日函数,利用拉格朗日对偶性,求解出拉格朗日乘子,从而得到超平面的参数