https://blog.youkuaiyun.com/DP323/article/details/80535863
SVM简介
SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势。
SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的。
VC维是对函数类的一种度量,可以简单的理解为问题的复杂程度。正因为SVM关注的是VC维,它在解决分类问题的时候,和样本的维数是无关的。
泛化误差界的公式:
公式中R(w)就是真实风险,Remp(w)就是经验风险,Ф(n/h)就是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小,即结构风险最小。
小样本,并不是说样本的绝对数量少(实际上,对任何算法来说,更多的样本几乎总是能带来更好的效果),而是说与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。
非线性,是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也有人叫惩罚变量)和核函数技术来实现,这一部分是SVM的精髓。
SVM线性分类器
1.如果一个线性函数能够将样本完全分开,就称这些数据是线性可分的,否则称为非线性可分的。什么叫线性函数呢?在一维空间里就是一个点,在二维空间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函数还有一个统一的名称——超平面(Hyper Plane)
例如我们有一个线性函数:
2.在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量和一个标记组成。如下:
xi就是文本向量(维数很高),yi就是分类标记。
在二元分类中,定义一个样本点到某个超平面的间隔,yi代表1和-1:
现在把w和b进行一下归一化,即用w/||w||和b/||w||分别代替原来的w和b,那么间隔就可以写成:
几何间隔与样本的误分次数间存在关系:
其中error代表误分次数。