支持向量机算法的基础是最大间隔分类器,最大间隔分类器虽然很简单,但不能应用于大部分数据,因为大部分属是非线性数据,无法用线性分类器进行分类,解决方案是对特征空间进行核函数映射,然后再运行最大间隔分类器。
本文跳过枯燥乏味的算法推导过程,循序渐进的介绍支持向量机分类原理,并通过四个小项目快速的理解支持向量机的线性分类,非线性分类和参数调参过程。
1.最大间隔分类器
最大间隔分类器使用超平面进行分类。
什么是超平面?
假如特征空间是 p 维,超平面就是 p-1维,为了可视化超平面,假设特征空间是3个维度的,那么超平面是2维的。
超平面表达式如下:

如果数据的特征满足上式,那么该点落在超平面上,若不满足,则该点处于超平面的两侧。
超平面如下图:

一般来说,如果数据可以用超平面完美地进行分离,那么超平面的数量是无限的,因为它可以向上移动、向下移动,或者对该超平面进行小角度的选择而不与观测数据接触。
超平面是无限的,如何选择最优超平面?
最优超平面是离观测点最远的分离超平面,在给定超平面的情况下,我们计算每个训练数据到超平面的距离,这就是所谓的间隔,最优超平面也就是间隔最大的分类器。如下图:

本文深入浅出地讲解了支持向量机(SVM)的基本原理,包括最大间隔分类器的概念及其在非线性数据分类中的应用。通过四个实战项目演示了线性和非线性核函数的应用、参数调整技巧及交叉验证方法。
最低0.47元/天 解锁文章
1543

被折叠的 条评论
为什么被折叠?



