支持向量机的核心介绍
支持向量机可以理解为是一种二分类的模型。这个模型的定义是在特征空间上的间隔最大的线性分类器,所以这个问题可以通过求解凸二次规划来解决。
具体来说就是在线性可分的情况下,在原空间寻找两类样本的最优分类超平面。而在线性不可分的情况下,需要引入松弛因子并通过使用非线性映射将低维输入空间的样本映射到高维空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。
怎样找到最优超平面呢?
- 我们需要先找到数据点中距离分割超平面距离最近的点(找最小)
- 然后尽量使得距离超平面最近的点的距离的绝对值尽量的大(求最大)
SVM的优势和缺点
优势
1.支持向量机可以解决小样本情况下的机器学习问题。
2.支持向量机的最终决策函数只是由少数的支持向量所决定,所以支持向量机的复杂度取决于支持向量的数据,而不是样本空间的维数。
3.采用核函数的方法克服了维数灾难,非线性可分的问题,但是并没有增加计算性
4.支持向量机算法利用松弛变量可以允许一些点到分类平面的距离不满足原先的要求,从而避免了这些异常点对模型学习的影响。
缺点
1.支持向量机是一个经典的二分类算法,然后要想解决多分类问题的时候,效果并不理想
2.支持向量机使用固定惩罚系数C,但是正负样本的两种错误造成的损失是不一样的