svm系列之最大分隔超平面

最新推荐文章于 2022-10-28 22:15:57 发布

原创最新推荐文章于 2022-10-28 22:15:57 发布 · 8.7k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#svm

机器学习--林轩田同时被 2 个专栏收录

20 篇文章

订阅专栏

机器学习--台大林轩田

20 篇文章

订阅专栏

本文探讨了如何通过最大化边界距离选择最佳分割线以提高模型的健壮性和抗过拟合能力。详细介绍了使用最大边界概念来定义分割线的“胖度”，并将其应用于线性可分数据集上的分类任务。

这里写图片描述
对于对上面4点的分隔，如果是用线性回归的话，三个图形都可能发生。因为PLA是遇到一个输入值，才进行调整，即如果用PLA模型的话，最终的模型与初始状态和输入点的顺序有关。都是我们从直觉上来看，不难发现，其实最右边的分割线由于另外两个分割线的。

这里写图片描述

那为什么最右边的超平面是最好的呢？？？
现在，我们先来一个直观的理解。
在这里我们先假设数据是可分。
以上有4个点，我们要对其分类，然后我们得出来以上三种结果。假设来了第5个点，它其实就是上面4个点中最左边的那一个点‘ * ’，但是，由于测量等影响，有了一些误差。作为我们看来，我们肯定是希望把这个点分为‘ * ’。如果我们用最左边的那个模型，可以发现，哪怕是一点点的误差，数据有一点点的干扰，第5个点就有可能被分为 ‘ 。’.再看最右边的那个模型，发现阴影圆部分都是第5个点可以容忍的误差范围。
```
所以，我们认为，数据点离分隔线的距离越大，模型就可以容忍各大的干扰，对过拟合有更好的健壮性。
又点是不能动的，分割线是可以动的。再加上分割线必须把所有点都正确分隔。所以以上也可以理解为，分割线距离  最近点  的距离越大，模型就可以容忍各大的干扰，超平面对过拟合有更好的健壮性。
所以，我们说，由于最右边的分割线距离   最近点  最远，于是具有最高的健壮性，所以我们选最右边的点。
```

所以，我们是要找到最胖的分隔线，这个最胖的意思，就是分隔线距离最近点的距离。然而前提是，这个分割线要把所有点都正确分隔（默认数据是可分的）。所以最终化成求一个目标函数，但有约束条件。
即
这里写图片描述

为了规范化，我们定义最胖的意思是，最大边界，即fatness==largest_margin

约束条件——分隔线必须把点都正确分类，即 $w^T *x +b>0$ 时，对应该点的 $y_n >0$ ， $w^T * x+b <0$ 时，对应该点的 $y_n <0$ 。即 $y_n(w^T * x +b)>0$ 。这里写图片描述

为了求出上面方程的解，我们要先弄明白什么是distance(x,b,w)?

假设超平面的方程为 $w^T x +b =0$ ,且 $x^1 , x^2$ ，都是超平面上的点，那么都有 $w^T x^1 +b =0$ $w^T x^2 +b =0$
两式相减，即可得， $（w^T * (x^2 - x^1) ）=0$ ，由于 $x^1 , x^2$ 是超平面的任意两点，即二者可以表示超平面任意一条直线，则上式表明W 是超平面的垂线（即法线）。

这里写图片描述

假设平面外有一点 x , 则
$\overrightarrow{h}*\left ( \overrightarrow{x}-\overrightarrow{x'} \right )=\left | h \right |\left | \overrightarrow{x}-\overrightarrow{x'} \right |cos\Theta$
$\left | h \right |=\left | \overrightarrow{x}-\overrightarrow{x'} \right |cos\Theta =\frac{\overrightarrow{h}*\left ( \overrightarrow{x}-\overrightarrow{x'} \right )}{\left | h \right |}$
这里h 就是 w
于是可得这里写图片描述

好了，我们就表示出了distance(x,b,w)的公式了
由于这是任一点到任意平面的距离公式，然而我们要求的是超平面能够把所有的数据点正确分类，则有附加条件
这里写图片描述

其实 $|w^Tx +b |$ 可以表示为 $y_n(w^T x_n +b)$
即最终化为
这里写图片描述

我们再来分析分析，我们最终想要的结果是得到超平面 $w^Tx+b=0$ ,但是我们发现对x，b同等放缩时，得到的超平面是一样的。那么为了能简化公式，我们能否通过对w,b同等放缩（反正最终结果不变），使得其满足条件这里写图片描述。

这样这里写图片描述
就化简会

即可得到
这里写图片描述

由于这里写图片描述比 every $y_n(w^Tx_n +b)>0$ 还要严格，则 $y_n(w^Tx_n +b)>0$ 就可以不要了。
即得到

但是这还是不能求解啊！！约束条件里面有min。现在就想方法把min也去掉。
我们现在用反证法证明 $y_n(w^Tx_n+b)>=1$ 的约束能力与这里写图片描述相同。其实二者是否相同，关键是看 $y_n(w^Tx_n+b)>=1$ 右边能否取到1，如果能，就表明是相同的，如果不能就表明是不同的。
假设二者约束能力不同，即假设 $y_n(w^Tx_n+b)>=1$ 不能取到1.即表示 $y_n(w^Tx_n+b)$ 最小不为1，我们假设是1.126，即 $y_n(w^Tx_n+b)>= 1.126$
我们求出最优的 $w^1,b^1$ ,但是我们还可以对 $w^1,b^1$ 进行放缩成， $(\frac{b^1}{1.126},\frac{w^1}{1.126})$ 。因为即使这样放缩，也可以满足约束条件这里写图片描述。而 $(\frac{b^1}{1.126},\frac{w^1}{1.126})$ 对应的 $\frac{1}{\left \| w \right \|}$ 就大于 $w^1,b^1$ 对应的的 $\frac{1}{\left \| w \right \|}$ 。而我们前面假设 $w^1,b^1$ 对应的的 $\frac{1}{\left \| w \right \|}$ 是最大的。这就矛盾了。所以假设不成立。所以 $y_n(w^Tx_n+b)>=1$ 右边能否取到1。即
$y_n(w^Tx_n+b)>=1$ 的约束能力与这里写图片描述相同。