SVM的分类超平面的数学推导

最新推荐文章于 2024-08-27 22:32:28 发布

Joovo

最新推荐文章于 2024-08-27 22:32:28 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏： ※ 机器学习机器学习基础算法文章标签： SVM 机器学习

本文链接：https://blog.youkuaiyun.com/Joovo/article/details/83353667

※ 机器学习同时被 2 个专栏收录

12 篇文章

订阅专栏

机器学习基础算法

9 篇文章

订阅专栏

本文深入解析支持向量机(SVM)的工作原理，详细推导SVM的数学模型，包括超平面定义、间隔最大化、拉格朗日乘子法应用及KKT条件解释。通过数学公式展示SVM如何找到最佳分类边界。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

给出数学推导，每个向量的意义不再赘述

转换原问题

确定每个支持向量下的超平面:min y(w^T+b)/||w||
间隔最大的为所求最优的超平面 max min y(w^T+b)/||w|| ，
即求：
$\space \underset{w^T,b} {max} \{ \underset{x}{min} \space y_i \times (w^T x_i+b) \frac{1}{||w||} \},y_i 即 label_i$
$y_i$ =+1或-1，不影响结果。
为了便于计算，我们可以认为在支持向量上的这一部分为 1，支持向量上的点也为所有点里的最近的点
$y_i \times (w^T x_i+b)$
那么其他点满足不等式：
$y_i(w^T+b) \geq 1$
这个式子转换为：
$\underset{x}{min} \space y_i \times (w^T x_i+b) \frac{1}{||w||} => \frac {1}{||w||} \\$
即
$\begin{cases} \underset{w^T,x}{max} \frac {1}{||w||} \\ s.t. \space y_i(w^T+b) \geq 1 \end{cases}$
对于 $max\frac {1}{||w||}$ ，它取得 max 和 $\frac 1 2 {||w||}^2$ 取得 min 的情形是一致的（1/2和平方便于后续计算）
问题转换为
$\begin{cases} \underset{x}{max} \space \frac 1 2{||w||}^2 \\ s.t. \space y_i(w^T+b) \geq 1 \end{cases}$

拉格朗日乘子法

关于拉格朗日乘子法的原理和证明：
深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件
其中严谨的拉格朗日对偶的证明没有明白，但是直观上是能理解的。
强对偶和KKT条件也非常严格，这里没有写出来。

有不等式约束的优化问题，可以写为：
min f(x), 
	s.t. g_i(x) <= 0; i =1, ..., n
	h_j(x) = 0; j =1, ..., m

对于含有不等式约束的优化问题，如何求取最优值呢？常用的方法是KKT条件.
同样地，把所有的不等式约束、等式约束和目标函数全部写为一个式子L(a, b, x)= f(x) + a*g(x)+b*h(x)，
KKT条件是说最优值必须满足以下条件：

1. L(a, b, x)对x求导为零；
2. h(x) =0;
3. a*g(x) = 0;

求取这三个等式之后就能得到候选最优值。其中第三个式子非常有趣，因为g(x)<=0，
如果要满足这个等式，必须a=0或者g(x)=0. 这是SVM的很多重要性质的来源，如支持向量的概念。

我们按照拉格朗日乘子法：
构造
$L(w^T,x,b)=\frac 1 2{||w||}^2+\sum_i^{m}\alpha_i[1-y_i(w^Tx_i+b)]$
令其对各分量求偏导等于0，即分别对 $w^T$ , $b$ 求导
$w||^2即 w^T*w$
可以得到
① $w^T -\sum_i^m\alpha_iy_ix_i=0$
② $\sum_i^m\alpha_iy_i=0$

把上述结论代入 L，
即
$\begin{aligned} L(\omega,b,\alpha)&=\frac{1}{2}\|\omega\|^2 + \sum_{i=1}^m\alpha_i\Big[1-y_i(\omega^Tx_i+b)\Big] \\ &= \frac{1}{2}\left\| \sum_{i=1}^{m}\alpha_iy_ix_i \right\|^2 + \sum_{i=1}^{m}\alpha_i - \omega^T\sum_{i=1}^{m}\alpha_iy_ix_i \\ &=\frac{1}{2}\omega^T\sum_{i=1}^{m}\alpha_iy_ix_i+\sum_{i=1}^{m}\alpha_i - \omega^T\sum_{i=1}^{m}\alpha_iy_ix_i \\ &=\sum_{i=1}^{m}\alpha_i - \frac 1 2 \left(\sum_{i=1}^{m}\alpha_iy_ix_i^T\right)\left(\sum_{i=1}^{m}\alpha_iy_ix_i\right) \\ &=\sum_{i=1}^{m}\alpha_i - \frac 12\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j \end{aligned}$