-
通过最大间隔原则导出SVM基本型:
minw,b12∣∣w∣∣2\min\limits_{w,b}\frac{1}{2}||w||^2w,bmin21∣∣w∣∣2
s.t. yi(wTxi+b)≥1,i=1,...,ms.t. ~~y_i(w^Tx_i+b)\geq1,i=1,...,ms.t. yi(wTxi+b)≥1,i=1,...,m
此问题为凸二次规划问题,可以利用常规优化包计算。
但是基于两个原因,一般利用其对偶问题求解。第一,对偶问题更容易求解,第二,方便利用核函数扩展到非线性划分。 -
通过拉格朗日乘子法合并约束条件:
拉格朗日函数:
L(w,b,α)=12∣∣w∣∣2+∑i=1mαi(1−yi(wTxi+b))L(w,b,\alpha)=\frac{1}{2}||w||^2+\sum\limits_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b))L(w,b,α)=21∣∣w∣∣2+i=1∑mαi(1−yi(wTxi+b)) -
构造拉格朗日函数下界(最优值下界),对偶函数:
Γ(αi)=minw,bL(w,b,α)\Gamma(\alpha_i)=\min\limits_{w,b}L(w,b,\alpha)Γ(αi)=w,bminL(w,b,α)
对w,bw,bw,b求导可得:
Γ(αi)=∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxiTxj\Gamma(\alpha_i)=\sum\limits_{i=1}^m\alpha_i -\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_jΓ(αi)=i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj
此时考虑最大上界maxαiΓ(αi)\max\limits_{\alpha_i}\Gamma(\alpha_i)αimaxΓ(αi),即拉格朗日函数的极大极小问题:
maxαiminw,bL(w,b,α)=maxαiΓ(αi)\max\limits_{\alpha_i}\min\limits_{w,b}L(w,b,\alpha)=\max\limits_{\alpha_i}\Gamma(\alpha_i)αimaxw,bminL(w,b,α)=αimaxΓ(αi)
可得对偶最优化问题:
minαiΓ(αi)=minαi12∑i=1m∑j=1mαiαjyiyjxiTxj−∑i=1mαi\min\limits_{\alpha_i}\Gamma(\alpha_i)=\min\limits_{\alpha_i} \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j -\sum\limits_{i=1}^m\alpha_iαiminΓ(αi)=αimin21i=1∑mj=1∑mαiαjyiyjxiTxj−i=1∑mαi
s.t. ∑i=1mαiyi=0s.t.~~\sum\limits_{i=1}^m\alpha_iy_i=0s.t. i=1∑mαiyi=0
αi≥0~~~~~~~~\alpha_i\geq0 αi≥0
i=1,...,m~~~~~~~~i=1,...,m i=1,...,m
求得最优解α∗\alpha^*α∗后:
f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b
w=∑i=1mαi∗yixiw=\sum\limits_{i=1}^m\alpha_i^*y_ix_iw=i=1∑mαi∗yixi
b=1ys−∑i=1mαi∗yixiTxsb=\frac{1}{y_s}-\sum\limits_{i=1}^m\alpha_i^*y_ix_i^Tx_sb=ys1−i=1∑mαi∗yixiTxs
sss为任意支持向量。 -
对偶问题与原问题的等价条件:
当原问题为凸优化问题,即f(x),g(x)f(x),g(x)f(x),g(x)为凸函数,h(x)h(x)h(x)为仿射函数,且可行域中至少有一点使不等式严格成立,则满足等价条件。 -
w∗,b∗,α∗w^*,b^*, \alpha^*w∗,b∗,α∗ 分别为原始问题和对偶问题的解的充分必要条件是满足KKT条件(求解过程):
∇wL(w∗,b∗,α∗)=0\nabla_wL(w^*,b^*, \alpha^*)=0∇wL(w∗,b∗,α∗)=0
∇bL(w∗,b∗,α∗)=0\nabla_bL(w^*,b^*, \alpha^*)=0∇bL(w∗,b∗,α∗)=0
∇αL(w∗,b∗,α∗)=0\nabla_\alpha L(w^*,b^*, \alpha^*)=0∇αL(w∗,b∗,α∗)=0
αi∗≥0\alpha_i^*\geq0αi∗≥0
yi(w∗Txi+b∗)−1≥0y_i(w^*{^T}x_i+b^*)-1\geq0yi(w∗Txi+b∗)−1≥0
αi(yi(w∗Txi+b∗)−1)=0\alpha_i(y_i(w^*{^T}x_i+b^*)-1)=0αi(yi(w∗Txi+b∗)−1)=0
i=1,...,mi=1,...,mi=1,...,m
注意不同教材对KKT条件定义不同,见李航《统计学习方法》,周志华《机器学习》。 -
注意,原始问题的等价拉格朗日函数极小极大问题为
minw,bmaxαiL(w,b,α)\min\limits_{w,b}\max\limits_{\alpha_i}L(w,b,\alpha)w,bminαimaxL(w,b,α)
所以有对偶一说。
支持向量机思路
最新推荐文章于 2024-12-26 11:12:56 发布
