目录
一、算法原理
从几何角度,对于线性可分数据集,支持向量机就是找距离正负样本都最远的超平面,相比于感知机,其解是唯一的,且不偏不倚,泛化性能更好。
二、超平面
n维空间的超平面(
,其中
)
- 超平面方程不唯一
- 法向量w和位移项b确定一个唯一超平面
- 法向量w垂直于超平面(缩放w,6时,若缩放倍数为负数会改变法向量方向)
- 法向量w指向的那一半空间为正空间,另一半为负空间
- 任意点观到超平面的距离公式为
三、几何间隔
对于给定的数据集X和超平面,定义数据集X中任意一个样本点
关于超平面的几何间隔为
正确分类时:,几何间隔此时等价于点到超平面的距离
没有正确分类时:
对于给定的数据集X和超平面,定义数据集X关于超平面的几何间隔为:数据集X中所有样本点的几何间隔最小值
四、支持向量机
1.模型简介
给定线性可分数据集X,支持向量机模型希望求得数据集X关于超平面的几何间隔达到最大的那个超平面,然后套上一个sign函数实现分类功能
其本质和感知机一样,仍然是在求一个超平面。
注意:几何间隔最大的超开面就是“距离正负样本都最远的超平面”,理由如下:
当超平面没有正确划分正负样本时:几何间隔最小的为误分类点,因此<0
当超平面正确划分超平面时:≥0,且越靠近中央
越大
2.问题:为什么支持向量机通常都采用拉格朗日对偶求解呢?
- 无论主问题是何种优化问题,对偶问题恒为凸优化问题,因此更容易求解(尽管支持向量机的主问题本就是凸优化问题),而且原始问题的时间复杂度和特征维数呈正比(因为未知量是w),而对偶问题和数据量成正比因为未知量是α),当特征维数远高于数据量的时候拉格朗日对偶更高效;
- 对偶问题能很自然地引入核函数,进而推广到非线性分类问题(最主要的原因)