《统计学习方法》第七章支持向量机学习笔记

一、线性可分支持向量机

定义:给定线性可分训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为:

wx+b=0

以及相应的分类决策函数:
f(x)=sign(wx+b)

称为线性可分支持向量机。
SVM的分类决策函数和感知机决策函数形式很类似,但是求得的超平面不一样。

1. 函数间隔和几何间隔

函数间隔是人为定义的一个间隔度量,确定的点A到指定超平面的函数间隔不唯一;几何间隔是客观存在的一个间隔度量,确定的点A到指定超平面的几何间隔是唯一的,几何间隔的绝对值实际上就是点到超平面之间的距离,几何间隔的符号表明确定的点A是否被指定的超平面正确分类。
函数间隔定义:对于给定的训练数据集 T 和超平面 (w,b) ,定义超平面 (w,b) 关于样本点 (xi,yi) 的函数间隔为:

γˆi=yi(wxi+b)

定义超平面 (w,b) 关于训练数据 T 的函数间隔为超平面 (w,b) 关于 T 中所有样本点 (xi,yi) 的函数间隔之最小值,即:
γˆ=mini=1,,Nγˆi

几何间隔定义:对于给定的训练数据集 T 和超平面 (w,b) ,定义超平面 (w,b) 关于样本点 (xi,yi) 的几何间隔为:
γi=yi(wwxi+bw)

定义超平面 (w,b) 关于训练数据 T 的几何间隔为超平面 (w,b) 关于 T 中所有样本点 (xi,yi) 的几何间隔之最小值,即:
γ=mini=1,,Nγi

函数间隔和几何间隔关系: γi=γˆiw γ=γˆw
两种间隔都表示分类预测的正确性以及确信度。两种间隔若为正,表明分类正确,值越大,正确的确信度越大;若为负,表明分类错误,值越小,分错的程度越大。

2. 学习算法

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。对于线性可分的训练数据集,几何间隔最大的分离超平面是唯一的,这里的间隔最大化又称为硬间隔最大化。
间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。即不仅将正负实例点分开,而且对最难分的实例点也有足够大的确信度将它们分开,这样的超平面对未知的新实例也有很好的分类预测能力。

2.1 使用最大间隔构造约束最优化问题

SVM的学习即求出超平面的参数 w b 可以转化为如下的原始约束最优化问题:

maxw,bγs.t.yi(wwxi+bw)γ,i=1,2,N

上式中的目标函数的意义是求在几何间隔 γ 取到最大值时 w b 的解,这里使用几何间隔而不使用函数间隔的原因是几何间隔有极大值且是唯一的,函数间隔没有极大值。求 w b 的实质是求一个超平面,但是一个特定的超平面对应的 w b 是不唯一的,可以按比例变化,对应有无数个函数间隔 γˆ 。即当几何间隔 γ 取到最大值时, w b 按比例有无数个解。
利用函数间隔和几何间隔之间的关系可以直接将上面的最优化问题转化为:
maxw,bγˆws.t.yi(wxi+b)γˆ,i=1,2,N

函数间隔 γˆ 的取值并不影响最优化问题的解。上式的最优化问题是求几何间隔 γˆw 取最大值时 w b 的值,当几何间隔 γˆw 取最大值时, w b 按比例有无数个值但是均表示同一超平面,函数间隔 γˆ 随着 w b 按比例变化会产生无数值,因此当函数间隔 γˆ 固定为1时,对目标函数的优化没有任何影响,其几何间隔是唯一的。同时假设将 w b 按比例改变为 λw λb ,由函数间隔的定义可知,此时函数间隔成为了 λγˆ ,因此函数间隔的改变对最优化问题的不等式约束也没有任何影响。因此取函数间隔 γˆ=1 (将函数间隔 γˆ 固定为1,对于一个特定的超平面相当于将 w b 固定了)带入上面的最优化问题,注意到最大化 1w
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值