统计学习方法-李航-第七章-支持向量机笔记
首先回顾一下感知机。感知机的模型是线性分类模型,将两种类别标记为正负1,将新的样本输入线性函数,再将线性函数代入符号函数就可以得到输出作为判定结果。这里最重要的还是线性函数的选取,线性函数在特征空间中可能就是一个超平面,只要这个超平面能将正负样本完全分隔开来就是符合要求的超平面,这也就是感知机的策略。具体到损失函数,选择的不是误分类点的个数,而是误分类点到超平面的总距离,这样才连续可求导,方便后续优化。
感知机的算法是在策略的基础上选择的优化算法。
从模型看,支持向量机有三种模型,对应训练数据的线性可分情况,从简单到复杂。当数据线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当数据近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;当数据线性不可分时,同时使用核技巧(Kernel
Function)和软间隔最大化,学习一个非线性支持向量机。书中强调支持向量机的学习是在特征空间进行的,将输入空间中的输入数据映射到特征空间,非线性支持向量机是非线性映射,所以两个空间的元素不是一一对应的,其他两种支持向量机则是一一对应的。其实感知机的几何解释也是在特征空间中进行的,超平面将特征空间划分为两个部分。
与感知机相比,支持向量机的要求更高,不仅仅要求正确分类,还要求正确性尽可能高,正确性表现为样本点到超平面的距离(间隔)。具体策略与模型的选取有关,