什么是SVM
SVM也叫支持向量机,是一种有监督的二分类算法,主要通过在特征空间内寻找一个最大化和两个类别之间间隔的分割超平面。
它主要有三种分割策略:
- 当训练样本为线性可分时,通过硬间隔最大化学习线性分类器进行处理,即线性可分SVM。
- 当训练样本为近似线性可分时,可以引入松弛向量,通过软间隔最大化来学习线性分类器,即线性SVM。
- 当旋转样本为线性不可分时,可将低维数据映射到高维空间中,再通过核函数和软间隔最大化学习非线性SVM
为什么使用软间隔/为什么引入松弛向量
我们在解决样本的分类问题时,通常设定样本是线性可分的,即在特征空间中总是存在一个存在平面可以使样本线性可分,而在实际的任务中很难保证样本是线性可分的,因为数据中通常存在噪声,一味追求线性可分的模型会导致过拟合。为了防止过拟合,我们要降低对样本数据的质量要求,即允许少量的样本分类错误,而不是像硬间隔这样不允许任何的错误存在。
在这样的考虑之下,我们就引入了松弛向量。