最优间隔分类器
定义目标函数:
hw,b=g(wTx+b) , g(z)={10z≥0z<0 , y∈{−1,1}
定义函数间隔:
Υ−i=yi(wTxi+b)
定义几何间隔:
Υi=yi(wT∣w∣xi+b∣w∣)
那么有: Υi=Υ−i∣w∣ ,函数间隔会随着 w 和b 的改变而变化,而几何间隔则是不变得,最优间隔分类器的目的就是使几何间隔最大化目标1. maxΥ,w,bΥ s.t. yi(wT∣w∣xi+b∣w∣)≥Υ
目标2. maxΥ−,w,bΥ−∣w∣ s.t. yi(wTxi+b)≥Υ−
目标3. minw∣w∣2 , s.t. yi(wTxi+b)≥1 (令 Υ−1=1 )由于这两种优化问题都是非凸优化,因此不会收敛到全局最小值,只会收敛到局部最小值,要用对偶问题来解答。
拉格朗日乘数法
目标函数定义:
minwf(w) s.t. hi(w)=0
定义拉格朗日算子
L(w,β)=f(w)+∑iβihi(w)
令偏导数等于0:
∂L(w,β)∂w=0 , ∂L(w,β)∂β=0
如果 w∗ 是解,那么存在 β∗ ,使得:
∂L(w∗,β∗)∂w=0 , ∂L(w∗,β∗)∂βi=0广义拉格朗日乘数法
目标函数定义:
minwf(w) s.t. gi(w)≤0,hi(w)=0
定义广义拉格朗日算子
L(w,α,β)=f(w)+∑iαigi(w)+∑iβihi(w)
定义: θp(w)=maxα,βL(w,α,β)
θp(w)={f(w)∞gi(w),hi(w)满足条件otherwise
那么原始问题定义为:
p∗=minwθp(w)=minwmaxα,βL(w,α,β)
拉格朗日乘数法的原理可以参考下面这篇文章http://blog.youkuaiyun.com/z_x_1996/article/details/71705650对偶问题
定义:
θD(α,β)=minwL(w.α,β)
它的对偶问题是:
d∗=maxα≥0,βθD(α,β)=maxα≥0,βminwL(w,α,β)
一般来说,对偶问题的解小于等于原始问题的解,即 d∗≤p∗
如果想将原始问题转化为对偶问题来解,也就是要证明在什么情况下 d∗=p∗
- 假设 f 为凸函数
- 假设
hi(w) 是仿射函数(仿射函数是指自变量最高次数为1的多项式函数) - 存在
w
,对于所有的
i , gi(w)<0
那么存在 w∗,α∗,β∗ ,使得: ∂L(w∗,α∗,β∗)∂w=0 , ∂L(w∗,α∗,β∗)∂β=0
其中 w∗ 是原始问题的解, α∗,β∗ 是拉格朗日乘数,是对偶问题的解
KKT互补条件:
α∗igi(w)=0 , gi(w∗)≤0 , α∗i≥0
如果 α∗i>0⇒gi(w∗)=0 ,通常有 α∗i≠0⇒gi(w∗)=0
对偶问题可以参考下面这篇文章
http://blog.youkuaiyun.com/x3886321/article/details/19128441SVM的最优间隔分类器
拉格朗日常数 αi,βi 变成 αi ,参数 w 变成
w,b
目标函数定义为:
min12(∣w∣)2 , s.t. yi(wTxi+b)≥1
gi(w,b)=−yi(wTxi+b)+1≤0 , αi>0 ⇒ gi(w,b)=0 ⇒ yi(wTxi+b)=1
我们将函数间隔为1的样本称为支持向量,这也就是支持向量机的来源。
拉格朗日算子:
L(w,b,α)=12∣w∣2−∑i(yi(wTxi+b)−1)
定义:
θD(α)=minw,bL(w,b,α)
∂L(w,b,α)∂α=w−∑iαixiyi=0 ⇒ w=∑iαixiyi
∂L(w,b,α)∂b=∑iαiyi=0
L(w,b,α)=12∣w∣∣w∣T−∑iαi(yi(wTxi+b)−1)
=12∑i∑jαiαjyiyj<xi,xj>−∑i∑jαiαjyiyj<xi,xj>+∑iαi
=∑iαi−12∑i∑jαiαjyiyj<xi,xj>=W(α)
对偶问题:
maxαW(α) , s.t. αi≥0 , ∑iyiαi=0
所以目标函数为:
hw,b(x)=g(wTx+b)=g(∑iαiyi<xi,x>+b)
这样,我们就把转化变量变为了α,然后通过上面ω与α的关系便可以求出ω,ω求出来后,b也可以很容易的得到为:
b=−mini,yi=1wTxi+maxi,yi=−1wTxi2
具体的原理可以参考这篇文章http://blog.youkuaiyun.com/z_x_1996/article/details/72763904