1.SVM算法推导-线性可分时

最新推荐文章于 2024-04-02 16:49:23 发布

fxjboke

最新推荐文章于 2024-04-02 16:49:23 发布

阅读量424

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习算法文章标签：算法推导机器学习 SVM

本文链接：https://blog.youkuaiyun.com/qq_26141121/article/details/92694444

机器学习算法专栏收录该内容

0 篇文章

订阅专栏

博客围绕通过SVM法求最好分隔样本的超平面展开。先构造优化问题，将目标转化为使两分隔平面距离最大，得到凸优化问题。接着用拉格朗日对偶求解，构建拉格朗日函数，求出对偶问题，最后用SMO算法求解，得到最优超平面和分类决策函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

已知样本为 ${x_1},{x_2}...{x_n}]$ ，样本标签为 ${y_1},{y_2}...{y_n}],{y_i} = 0,1$ 。试通过SVM法求最好分隔样本的超平面，写出其计算过程。

1构造优化问题

解：假设存在一个超平面 $w x + b = 0$ 能完全分隔样本，则通过尺度收缩总能找到两个超平面 $w x + b = - 1$ 和 $w x + b = 1$ ，使样本在平面上或平面外侧，如下图所示。

图1 分隔平面

即满足:

$(1)yi(wxi+b)≥1{y_i}(w{x_i} + b) \ge 1 \tag{1}$

但对线性可分的训练数据集而言，使其线性可分的超平面有无穷多个，那么我们该如何选择这两个平面呢？

我们希望我们找的2个平面能最好分隔样本点，那么什么才是最好分隔呢？不难想象，使这两个平面的距离尽可能大，则两类样本的差异就越明显，分类效果最好。即目标是：

$\tag{2}$

其中d为两个分隔面之间的距离，这样的平面只有一个。

记 $x_1,x_2$ 分别是 $w x + b = - 1$ 和 $w x + b = 1$ 上的两点，且垂直于两个平面 $x_1x_2$ ，即 $x_1x_2||=d$ 。
因为:
$(3)x1x2=x2−x1=λwx_1x_2 = x_2-x_1= \lambda w \tag{3}$

(3)式代入 $w{x_2} + b = 1$ 可得：

$(4)w(x1+λw)+b=1w({x_1} + \lambda w) + b = 1 \tag{4}$

代入 $w{x_1} + b = -1$ 到(4)式可得：

$(5)λw2=2\lambda {w^2} = 2 \tag{5}$

从而得：
$max⁡d=max⁡∣x2−x1∣=maxλ∥w∥=max⁡2w2∥w∥=max⁡2∥w∥\max d = \max |{x_2} - {x_1}|{\rm{ = max}}\lambda \left\| w \right\| = \max \frac{2}{{{w^2}}}\left\| w \right\| = \max \frac{2}{{\left\| w \right\|}}$

等价于 $min⁡w22\min \frac{{{w^2}}}{2}$ 。

即原问题变为凸优化问题：

$(6)min⁡w22\min \frac{{{w^2}}}{2} \tag{6}$

$st:yi(wxi+b)≥1,i=1,..Nst:{y_i}(w{x_i} + b) \ge 1,i = 1,..N$

2拉格朗日对偶求解

构建拉格朗日函数：
$(7)L(w,b,α)=w22+∑i=1Nαi(1−yi(wxi+b))L(w,b,\alpha ) = \frac{{{w^2}}}{2} + \sum\limits_{i = 1}^N {{\alpha _i}(1 - {y_i}(w{x_i} + b))} \tag{7}$

其中 $αi≥0{\alpha _i} \ge 0$ 为拉格朗日乘子。

根据拉格朗日对偶性，原问题的对偶问题是最大最小值问题：

$(8)max⁡αmin⁡w,bL(w,b,α){\max _\alpha }{\min _{w,b}}L(w,b,\alpha ) \tag{8}$

首先求解 $min⁡w,bL(w,b,α){\min _{w,b}}L(w,b,\alpha )$ ，对w求梯度，令其为0：
$∇wL(w,b,α)=w−∑i=1Nαiyixi=0{\nabla _w}L(w,b,\alpha ) = w - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}{x_i}} {\rm{ = }}0$
$∇bL(w,b,α)=∑i=1Nαiyi=0{\nabla _b}L(w,b,\alpha ) = \sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {\rm{ = }}0$
可得：
$\sum\limits_{i = 1}^N {{\alpha _i}{y_i}{x_i}} \tag{9}$
$(10)∑i=1Nαiyi=0\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {\rm{ = }}0 \tag{10}$

把(9)(10)代入(7)式可得：
$min⁡L(w,b,α)w,b=12∑i=1N∑j=1Nαiαjyiyjxixj+∑i=1Nαi−∑i=1Nαiyi((∑j=1Nαjyjxj)xi)−b∑i=1Nαiyi=−12∑i=1N∑j=1Nαiαjyiyjxixj+∑i=1Nαi\begin{array}{l} \min L{(w,b,\alpha )_{w,b}} = \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}} } {x_j}{\rm{ + }}\sum\limits_{i = 1}^N {{\alpha _i}} - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}((\sum\limits_{j = 1}^N {{\alpha _j}{y_j}{x_j}){x_i})} } - b\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} \\ = - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}} } {x_j} {\rm{ + }}\sum\limits_{i = 1}^N {{\alpha _i}} \end{array}$

然后求 $L{(w,b,\alpha )_{w,b}}$ 对 $α\alpha$ 的极大，即是对偶问题：
$(11)max⁡α−12∑i=1N∑j=1Nαiαjyiyjxixj+∑i=1Nαi{\max _\alpha } - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}} } {x_j} + \sum\limits_{i = 1}^N {{\alpha _i}} \tag{11}$
$s.t:∑i=1Nαiyi=0s.t:\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {\rm{ = }}0$
$αi≥0,i=1,...N{\alpha _i} \ge 0,i = 1,...N$
上式等价于：
$(12)min⁡α12∑i=1N∑j=1Nαiαjyiyjxixj−∑i=1Nαi{\min _\alpha }\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}} } {x_j} - \sum\limits_{i = 1}^N {{\alpha _i}} \tag{12}$
$s.t:∑i=1Nαiyi=0s.t:\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {\rm{ = }}0$
$αi≥0,i=1,...N{\alpha _i} \ge 0,i = 1,...N$

(12)式是(6)式的对偶问题。
最后，使用SMO算法（序列最小最优化）即可求出对偶问题的解 $αi∗{\alpha _i}^*$ ，再通过（9）和（10）式可得到原问题的解 ${w^*}$ 和 ${b^*}$ ，从而得到最优超平面 ${w^*}x + {b^*} = 0$ ，即 $∑i=1Nαi∗yi(xix)+b∗=0\sum\limits_{i = 1}^N {{\alpha _i}^{\rm{*}}{y_i}({x_i}x)} + {b^*} = 0$ 。得到分类决策函数：
$sign(\sum\limits_{i = 1}^N {{\alpha _i}^{\rm{*}}{y_i}({x_i}x)} + {b^*}) \tag{13}$