支持向量机
1.简介
支持向量机(SVM)是一种二分类模型,它的基本形式是定义在特征空间上的间隔最大的线性分类器,这也是它区别于感知机的原因,如果加上核技巧,SVM实际上就变成了一种非线性分类器。它的学习策略是:间隔最大化;求解算法是:凸二次规划的最优化算法。根据数据分布形式分为:线性可分支持向量机、线性支持向量机、非线性向量机。
核函数:当输入空间X为欧式空间或离散空间,特征空间H为希尔伯特空间时,核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积,即存在一个从X到H的映射,使得对所有
,函数K(x,z)满足条件:
,则称K(x,z)为核函数,
为映射函数。
2.优缺点
- 优点:泛化错误率低、计算开销小、结果容易解释、分类效果好且可向高维映射、样本少时仍有效。
- 缺点:对参数调节和核函数的选择敏感、对大规模数据效果不好、对缺失数据敏感。
3.原理及推导
函数间隔:一般可用被分类点到分割平面的符号是否一致来判断是否分类正确,所以函数间隔表示为:
几何间隔:由于函数间隔受参数w和b的影响,当它们成比例增加此时平面没有变但是所得到的函数距离增加了,为了表示真实的间隔,我们定义几何间隔为:。
模型目标:寻找几何间隔最大的分离超平面:
由于函数间隔不影响最优化问题的解,所以我们设函数间隔为1, 问题变为求||w||,最优化问题转换为: