SVM 支持向量机推导过程软硬间隔最大化线性SVM到非线性SVM 核函数 SMO 三种模型推导证明过程（Ⅰ）

（一）支持向量机的思想

其实这个模型是为了解决分类问题。而且是基于线性模型的。
我们从最简单的二分类问题入手。
先定义数据集：
$T={(x1,y1),(x2,y2)...(xN,yN)}T=\left\{\left(x_1,y_1\right),\left(x_2,y_2\right)...\left(x_N,y_N\right)\right\}$
$(i=1,2...N)T=\left\{\left(x_i,y_i\right)\right\}\;\;\;\;(i=1,2...N)$
其中，x是n维的特征向量，y是分类情况用 +1 ， -1 表示。
$}\left\{\begin{array}{l}x_i\in X\sqsubseteq\mathbb{R}^n\\\\y_i\in Y=\{+1,-1\;\}\end{array}\right.$
上面我们的工作是把我们的数据集用数学语言表达出来了。现在我们把我们的目标用数学语言表达出来：
首先，要引入最大间隔分类这个问题，其实这个问题我们很早就碰到的了，但是没有细思。

当我们在学习感知机的时候，当时的问题也是分类，但是我们最终分出来的 $ω\omega$ 参数是和我们第一次选取的随机初始值有关的，也就是说在感知机中，我们分类的决策限界不是唯一的。对于分类问题我有很多种分法：
在这里插入图片描述
最大间隔分类器的提出：其实就是为了解决在这堆分类方法中选择一个最好的情况。

从直觉上来说我们看两个例子：
在这里插入图片描述

图比较丑，将就看把。按照直觉我们会觉得分法二比较好，因为感觉给人很舒适的感觉。分法一会给人一种很勉强的感觉。其实这里我的理解是分法二可以保证更高的准确度，可以细思，想想就清楚了。

而这种直觉在数学上是可以定义出来的，它在数学角度上就是一种最大的间隔。我们只要把两个分类之间的那个间隔设置为最大，即为最优的那种分类。
用数学语言表达：
$g o a l ： m a x （ m a r g i n ）$
间隔用margin表示，啊，同时别忘了我们的假设函数：
$h(x;w)=w^Tx+b$
现在把我们的假设函数，和我们要寻找的最大间隔这个目标结合起来。首先 $w^Tx+b=0$ 这个表示决策界限，可以理解的话继续：
在这里插入图片描述
这个 $m a r g i n$ 从图中来看是可以用N个的对吧，因为对于每个点 $x_i$ 到决策界限都会有一个距离，这个距离的二倍就是 $margin_i$ 但是，我们用不了这么多 $m a r g i n$ ，不是不想用，其实是用不了，比如我随便找一个 $m a r g i n$
在这里插入图片描述
我们可以看到，在间隔里面已经有一些样本点了。这是不行的。我们目的就是要找一个有宽度的界限能够最大分开这些点。现在我们说的是硬间隔（之后解释），所以说要找的 $m a r g i n$ 只能从距离决策限界最近的那个点来做。
$margin=min（2∣wx+b∣∥w∥)margin=min（x_i到wx+b=0\mathrm{的距离的2倍}）\\\ \\margin=min（\frac{2\vert wx+b\vert}{\parallel w\parallel})$
结合刚刚的目标有：
$min（2∣wx+b∣∥w∥）goal：\;max（margin）\\\ \\goal：max\;min（\frac{2\vert wx+b\vert}{\parallel w\parallel}）$

（二）决策函数的粗略推导

现在完善一下我们的表达：
$mini=1...N（2∣wx(i)+b∣∥w∥）goal：\;\underset{w,b}{max}（margin）\\goal：\underset{w,b}{max}\;\underset{i=1...N}{min}（2\frac{\vert wx^{(i)}+b\vert}{\parallel w\parallel}）$
同时别忘了线性可分的约束：（我们这一切工作都是建立在数据集线性可分的角度上的，所以约束别忘了） $yi(wxi+b)≥0y_i(wx_i+b)\geq0$

发现分母L2范数是和i无关的，可以提出来：
$mini=1...N∣wx(i)+b∣goal：\underset{w,b}{max}\frac2{\parallel w\parallel }\;\underset{i=1...N}{min}\vert wx^{(i)}+b\vert$

现在有个不好理解的问题了，现在函数间隔 $wx^{(i)}+b\vert$ 的取值是不影响我们这个max求解过程的解。事实上，我们假设将 $ω\omega$ 和b按比例缩放： $λω\lambda\omega$ $λb\lambda b$ 这时，函数间隔 $∣wx(i)+b∣\vert wx^{(i)}+b\vert=\lambda\ \vert wx^{(i)}+b\vert$ 。这个对我们的之前那个约束不等式是没有影响的，对目标函数优化也没有影响呢。所以，为了我们计算方便，把它即 $\vert wx^{(i)}+b\vert$ 设为 1 。

则有：
（注意这里我们假设以后，约束项会大于等于1而不是0）
$yi(wTxi+b)≥1\left\{\begin{array}{l}\;\underset{w，b}{max}\;\frac2{\parallel w\parallel}\\\\s.t.\;\;y_i(w^Tx_i+b)\geq1\\\end{array}\right.$
我们给它变型：
$yi(wTxi+b)−1≥0\Rightarrow\left\{\begin{array}{l}\;\underset{w，b}{min}\;\frac12\parallel w\parallel^2\\\\s.t.\;\;y_i(w^Tx_i+b)-1\geq0\\\end{array}\right.$
如果有数学基础的话，就可以明显看出这是一个凸二次优化问题。或是说凸二次规划问题。

通过求解这个凸优化问题，我们会得到参数 $w∧，b∧\overset\wedge w，\overset\wedge b$ 由此可以得到分离超平面：
$w∧x+b∧=0\overset\wedge wx+\overset\wedge b=0$
以及我们的决策函数：
$h(x;w,b)=sign(w∧x+b∧)h(x;w,b)=sign(\overset\wedge wx+\overset\wedge b)$
(注：w和x应该是点乘，也就是内积。为了简洁我没有加转置符号)

结论：
我们得到的决策函数是唯一的，也就是说，给我一个线性可分的数据集，那么有个最大间隔分离的超平面是存在且唯一的。我们可以用它做很好的分类，通常比感知机要nb得多。

$-$

（三）细化推导过程利用拉格朗日对偶性及KKT条件完善推导

上面到达凸优化的时候， $w∧，b∧\overset\wedge w，\overset\wedge b$ 这两个参数我们其实是没有解出来，上面只是说说推导思路嘛，现在才是怎么把 $w∧，b∧\overset\wedge w，\overset\wedge b$ 他们具体的值求出来的过程。

这里的步骤可能需要一些数学知识，不然可能很难理解。关于数学知识部分，之后有空了另外写几篇数学基础的理解。现在就默认已经有这些知识的情况进行推导。

刚刚到了这一步：
$yi(wTxi+b)−1≥0\Rightarrow\left\{\begin{array}{l}\;\underset{w，b}{min}\;\frac12\parallel w\parallel\\\\s.t.\;\;y_i(w^Tx_i+b)-1\geq0\\\end{array}\right.$
现在构建拉格朗日函数：
$L(w,b,λ)=12∥w∥−∑i=1Nλiyi(wxi+b)+∑i=1NλiL(w,b,\lambda)=\frac12\parallel w\parallel-\sum_{i=1}^N\lambda_iy_i(wx_i+b)+\sum_{i=1}^N\lambda_i$

可以这样理解，对于带约束的情况：
$yi(wxi+b)≥1\left\{\begin{array}{l}\underset{w,b}{min}\;\frac12\parallel w\parallel\\\\s.t.\;y_i(wx_i+b)\geq1\end{array}\right.$
现在我们再把L函数整理得到：

$L(w,b,λ)=12∥w∥+∑i=1Nλi(1−yi(wxi+b))L(w,b,\lambda)=\frac12\parallel w\parallel+\sum_{i=1}^N\lambda_i(1-y_i(wx_i+b))$
重点看 $1-y_i(wx_i+b))$ 这个式子。

$(1−yi(wxi+b))>0时,由于λ是大于0的，因此L(w,b,λ)的max也即是最大值，是发散的，趋近无穷·当\;(1-y_i(wx_i+b))>0 时,由于\lambda是大于0的，因此L(w,b,\lambda)的max 也即是最大值，是发散的，趋近无穷$
$因此maxL(w,b,λ)，不是发散的，这个max是存在的·当\;(1-y_i(wx_i+b))\leq0 时,由于\lambda是大于0的，\\\ \\\ 因此max L(w,b,\lambda)，不是发散的，这个max是存在的$
这个其实也很好理解，maxL（w,b $λ\lambda$ ）中有一项是 $λ\lambda$ 和 $1-y_i(wx_i+b))$ 这个式子的乘积，在第二种情况中，这个乘积是小于0的数，也就是说 $λ(1−yi(wxi+b))≤0\lambda (1-y_i(wx_i+b)) \leq 0$ 。这时 $\lambda)$ 最大值就是当 $λ=0\lambda=0$ , $1-y_i(wx_i+b)) = 0$ 时。

写整齐一点就是：
$\left\{\begin{array}{l}\underset\lambda{max}\;L(w,b,\lambda)=\infty\;\;\;\;\;if\;(1-y_i(wx_i+b))>0\;\\\underset\lambda{max}\;L(w,b,\lambda)=\frac12\parallel w\parallel\;\;\;\;\;if\;(1-y_i(wx_i+b))=0\;\\\underset\lambda{max}\;L(w,b,\lambda)=Q\;\;\;\;\;if\;(1-y_i(wx_i+b))<0\;\;\;(Q<\frac12\parallel w\parallel)\;\end{array}\right.$
整理得到：
$\left\{\begin{array}{l}\underset\lambda{max}\;L(w,b,\lambda)=\infty\;\;\;\;\;if\;(1-y_i(wx_i+b))>0\;\\\underset\lambda{max}\;L(w,b,\lambda)=\frac12\parallel w\parallel\;\;\;\;\;if\;(1-y_i(wx_i+b))\leq0\;\\\end{array}\right.$
现在把我们原问题拿过来比对：
$yi(wxi+b)≥1\left\{\begin{array}{l}\underset{w,b}{min}\;\frac12\parallel w\parallel\\\\s.t.\;y_i(wx_i+b)\geq1\end{array}\right.$
正好就是刚刚上面推导式子的第二种情况对吧。
所以整理后

我们的目标转变为求：
$λi≥0\left\{\begin{array}{l}\underset{w,b}{min}\;\underset\lambda{max\;}L(w,b,\lambda)\\\\s.t.\;\lambda_i\geq0\end{array}\right.$
这一步就是从对w，b的约束到无对w，b约束的转换。

由因为二次凸优化问题是强对偶关系：

（minmax问题=maxmin问题，有定理，可以证明的，这里略过）

我们的目标转变为求：
$λi≥0\left\{\begin{array}{l}\underset\lambda{max\;} \underset{w,b}{min}\;L(w,b,\lambda)\\\\s.t.\;\lambda_i\geq0\end{array}\right.$
好了，现在问题先求解一个拉格朗日的最小值，可以用偏微分求解，得到一些条件。
即对
$L(w,b,λ)=12wTw+∑i=1Nλi(1−yi(wxi+b))L(w,b,\lambda)=\frac12w^Tw+\sum_{i=1}^N\lambda_i(1-y_i(wx_i+b))$
求关于参数的偏微分
$∂L(w,b,λ)∂w=w−∑i=1Nλiyixi=0⇒w=∑i=1Nλiyixi\frac{\partial L(w,b,\lambda)}{\partial w}=w-\sum_{i=1}^N\lambda_iy_ix_i=0\\\Rightarrow w=\sum_{i=1}^N\lambda_iy_ix_i$
$∂L(w,b,λ)∂b=−∑i=1Nλiyi=0⇒∑i=1Nλiyi=0\frac{\partial L(w,b,\lambda)}{\partial b}=-\sum_{i=1}^N\lambda_iy_i=0\\\Rightarrow\sum_{i=1}^N\lambda_iy_i=0$

有了这两个条件以后，原来的拉格朗日函数就可以进一步在最小值的条件中化简：
为了计算严谨，这里wx的点乘，表示为矩阵的转置乘法 $w^Tx$
$⇒−12(∑i=1N∑j=1NλiλjyiyjxTixj)+∑i=1Nλi\\\ \\\ L(w,b,\lambda)=\frac12w^Tw+\sum_{i=1}^N\lambda_i(1-y_i(w^Tx_i+b))\\\ \\\ \\\ \\\ \\\Rightarrow min L(w,b,\lambda)=\frac12{(\sum_{i=1}^N\lambda_iy_ix_i)}^T(\sum_{i=1}^N\lambda_iy_ix_i)+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_iw^Tx_i\;-\sum_{i=1}^Nb\lambda_iy_i\\ \\\ \\\ \Rightarrow \frac12{(\sum_{i=1}^N\lambda_iy_ix_i)}^T(\sum_{i=1}^N\lambda_iy_ix_i)+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_iw^Tx_i\\\ \\\ \\\Rightarrow \frac12{(\sum_{i=1}^N\sum_{j=1}^N\lambda_i}\lambda_jy_iy_j{x^T}_ix_j)+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_iw^Tx_i\;\;\\\ \\\ \\\Rightarrow \frac12{(\sum_{i=1}^N\sum_{j=1}^N\lambda_i}\lambda_jy_iy_j{x^T}_ix_j)+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\lambda_iy_i{(\sum_{j=1}^N\lambda_jy_jx_j)}^Tx_i\\\ \\\ \;\;\\ \Rightarrow\frac12{(\sum_{i=1}^N\sum_{j=1}^N\lambda_i}\lambda_jy_iy_j{x^T}_ix_j)+\sum_{i=1}^N\lambda_i-\sum_{i=1}^N\sum_{j=1}^N\lambda_iy_i{\lambda_jy_j{x^T}_j}x_i\;\;\\\ \\\ \\\Rightarrow -\frac12{(\sum_{i=1}^N\sum_{j=1}^N\lambda_i}\lambda_jy_iy_j{x^T}_ix_j)+\sum_{i=1}^N\lambda_i$
忙了半天我们现在可以更新我们的目标了：
$λ≥0\\\left\{\begin{array}{l}\underset\lambda{max}\;-\frac12{(\sum_{i=1}^N\sum_{j=1}^N\lambda_i}\lambda_jy_iy_j{x^T}_ix_j)+\sum_{i=1}^N\lambda_i\\s.t.\;\;\;\;\lambda\geq0\end{array}\right.$
由KKT条件：

${∂L∂w=0,∂L∂b=0,∂L∂λ=0λi(1−yi(wxi+b))=01−yi(wxi+b)≤0λi≥0\\\left\{\begin{array}{l}\frac{\partial L}{\partial w}=0,\frac{\partial L}{\partial b}=0,\frac{\partial L}{\partial\lambda}=0\\\\\lambda_i(1-y_i(wx_i+b))=0\\\\1-y_i(wx_i+b)\leq0\\\\\lambda_i\geq0\end{array}\right.$
最终结果即将诞生：
(先推一下b，怕不知道b怎么来的)
$1-y_i(wx_i+b)=0\\y_i(wx_i+b)=1\\y_i^2(wx_i+b)=y_i\\wx_i+b=y_i\\b=y_i-wx_i$
最终结果：

$b∧=yk−xk∑i=1Nλiyixi\left\{\begin{array}{l}\begin{array}{l}\overset\wedge w=\sum_{i=1}^N\lambda_iy_ix_i \\\ \\\overset\wedge b=y_k-x_k\sum_{i=1}^N\lambda_iy_ix_i\end{array}\end{array}\right.$
我们的决策函数即为：

$h(x;w,b)=sign(w∧Tx+b∧)h(x;w,b)=sign(\overset\wedge w^Tx+\overset\wedge b)$
这样我们的决策函数就出来了，关于后续的核函数和SMO方法还有软间隔下一篇继续写，今天先写这么多。主要就是SVM的思想，优化办法，详细的推导过程与证明。
$$$$