SVM的推导:为什么SVM最终模型仅和支持向量有关_svm中参数w只与支持向量相关吗-优快云博客

SVM简而言之就是让两组点距离超平面达到最远。

超平面可以用 $w^Tx+b=0$ 表示。其中 $w=(w_1;w_2;w_3..w_m)$ 是法向量。点 $x=(x_1,x_2..x_m)$ 到超平面的距离为 $∣wTx+b∣∣∣w∣∣\frac{|w^Tx+b|}{||w||}$ ，其中||w||= $w12+w22+...+wm2\sqrt{w_1^2+w_2^2+...+w_m^2}$ ，那么可以得到以下等式：
$(wx+b)∣∣w∣∣>=d,yi=1(wx+b)∣∣w∣∣<=−d,yi=−1\frac{(wx+b)}{||w||}>=d, y_{i}=1 \\ \frac{(wx+b)}{||w||}<=-d, y_{i}=-1$
合并一下可以写成
$(wx+b)yi∣∣w∣∣d>=1\frac{(wx+b)y_i}{||w||d}>=1$
其中 $∣ ∣ w ∣ ∣ d$ 是正数，放缩一下让它等于1，对推导没有影响，而且 $w^T+b|$ 是常数，所以SVM的一般形式就是：
$min∣∣w∣∣2,s.t,(wx+b)yi>=1(公式1)min{\frac{||w||}{2}}, s.t, (wx+b)y_i>=1 (公式1)$

为了解决这个带约束的最优化问题，上拉格朗日乘数法
得到的对偶问题是(dual problem)是 $L(w,b,α)=12∣∣w∣∣2+∑i=1mαi(1−yi(wTxi+b))L(w,b,\alpha)=\frac{1}{2}||w||^2+\sum_{i=1}^{m}{\alpha_i(1-y_i(w^Tx_i+b))}$

注意 $max⁡b,αL\max_{b,\alpha}L$ 和 $∣∣w∣∣2,s.t,(wx+b)yi>=1\frac{||w||}{2},s.t, (wx+b)y_i>=1$ 是等价的，而 $min{\max{L}}$ 是和公式1等价的，把带约束的最优化问题转换成对偶问题是拉格朗日乘数法的思想。

对w和b分别求偏导并且置0 $∂L∂w=w−∑i=1mαiyixi=0∂L∂b=∑i=1mαiyi=0\frac{\partial{L}}{\partial{w}}=w-\sum_{i=1}^{m}\alpha_{i}y_{i}x_i=0 \\ \frac{\partial{L}}{\partial{b}}=\sum_{i=1}^{m}\alpha_{i}y_{i}=0$

把上面的两个表达式带入L，可以得到目标为
$max⁡α∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxiTxjs.t.∑i=1mαiyi=0αi>=0(拉格朗日的要求)\max_\alpha{\sum_{i=1}^m\alpha_{i}-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j}\\s.t.\sum_{i=1}^{m}\alpha_{i}y_{i}=0\\\alpha_i>=0 (拉格朗日的要求)$
因此，训练完成后，最终apply的模型是
$f(x)=wTx+b=∑i=1mαiyixiTx+b同时要求以下几个表达式成立αi>=0(公式2，拉格朗日的要求)yif(xi)−1>=0(公式3，公式1和KKT条件的要求)αi(yif(xi)−1)=0(公式4，KKT条件的要求)f(x)=w^Tx+b=\sum_{i=1}^{m}\alpha_{i}y_{i}x_i^Tx+b\\ 同时要求以下几个表达式成立\\ \alpha_i>=0 (公式2，拉格朗日的要求)\\ y_if(x_i)-1>=0(公式3，公式1和KKT条件的要求)\\ \alpha_i(y_if(x_i)-1)=0 (公式4，KKT条件的要求) \\$
于是，对于任意训练样本 $x_i,y_i)$ ，比较公式2和公式4，可以知道 $αi=0\alpha_i=0$ 或者 $y_if(x_i)=1$ 。如果 $αi=0\alpha_i=0$ ，那么训练样本 $x_i,y_i)$ 不会对f(x)有任何影响；如果 $y_if(x_i)=1$ ，这个训练样本就在最大间隔的边界上，是支持向量。因此，训练完成以后，最终模型仅仅和支持向量有关。