支持向量机
适用问题:二分类问题
模型类型:判别模型
模型特点:分离超平面、核技巧
学习策略:极小化正则化合页损失、软件额最大化
学习算法:概率计算公式、EM算法
定义:
支持向量机(Support Vector Machine, SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数(hinge loss)计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器 。SVM可以通过核方法进行非线性分类,是常见的核学习方法之一。
原理:
线性可分性(linear separability)
在分类问题中给定输入数据和学习目标:
,其中输入数据的每个样本都包含多个特征并由此构成特征空间:
,而学习目标为二元变量示负类(negative class)和正类(positive class)。
若输入数据所在的特征空间存在作为决策边界(decision boundary)的超平面将学习目标按正类和负类分开,并使任意样本的点到平面距离大于等于1 :
则称该分类问题具有线性可分性,参数分别为超平面的法向量和截距。
满足该条件的决策边界实际上构造了2个平行的超平面作为间隔边界以判别样本的分类:
所有在上间隔边界上方的样本属于正类,在下间隔边界下方的样本属于负类。两个间隔边界的距离被定义为边距(margin),