笔记(总结)-SVM(支持向量机)的理解-1

最新推荐文章于 2024-04-15 15:58:40 发布

原创最新推荐文章于 2024-04-15 15:58:40 发布 · 674 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#SVM #支持向量机 #机器学习 #对偶问题

MasterWork-UCAS 同时被 3 个专栏收录

67 篇文章

订阅专栏

科研|算法|论文

59 篇文章

订阅专栏

笔记

53 篇文章

订阅专栏

本文深入探讨SVM（支持向量机）的基本原理及推导过程，从数学角度解释如何寻找最佳分类超平面，并介绍拉格朗日乘数法与对偶问题的概念。

SVM即支持向量机作为神经网络复兴前的最强大模型，建模和推导有着严密的数学推导作为基础，在训练完成后计算速度也较快，得到了广泛的应用。本文先阐述SVM的基本问题和推导过程，再引入软间隔的SVM，最后引入核函数和求解方法。

问题引入

考虑简单的二分类问题，我们想找一个“最好”的超平面来分隔两类样本。可以看到，在样本点线性可分的情况下，能够找到多个超平面。但其中黑色超平面直观上来看是最合理的，所有样本点到黑色超平面的距离都比较远。新来一个样本时，由于噪声或训练集局限性（采样）等因素，新样本可能更加接近超平面，导致分类错误，而黑色超平面受的影响最小，因为所有样本到它的距离都比较远，泛化能力最强。
这里写图片描述

样本空间中，超平面方程如下：

wTx+b=0wTx+b=0 $w^Tx+b=0$

样本空间中任意一点 $x_0$ 到超平面的距离为：

r=|wTx0+b|||w||r=|wTx0+b|||w|| $r=\frac{|w^T x_0+b|}{||w||}$

如何描述这个“最好”的超平面？我们引入两条“间隔”超平面作为“楚河汉界”，现在我们的目标变为：在满足所有样本点位于边界外的基础上（分类正确），使“楚河汉界”最宽（泛化能力最强）。
这里写图片描述

我们取两条间隔线为 $w^Tx+b=\pm k$ ，在任意间隔线上取一点，到另一间隔线的距离即为“楚河汉界”宽度，等于 $d=\frac{2k}{||w||}$ ，此时我们的目标变为：

max dmax d $\max \ d$

s.t. wTx+b≥k, y=1s.t. wTx+b≥k, y=1 $s.t.\ w^Tx+b \geq k, \ y=1$

wTx+b≤−k, y=−1wTx+b≤−k, y=−1 $\quad w^Tx+b \leq -k, \ y=-1$

由于目标为最大间隔，而 $k$ 相当于衡量宽度的一个尺度，取不同尺度只会改变目标函数的优化程度，为了之后模型推导的方便，取 $k=1$ 。目标等价变为：

min 12||w||2min 12||w||2 $min \ \frac{1}{2}{||w||}^2$

s.t. yi(wTx+b)≥1, ∀xis.t. yi(wTx+b)≥1, ∀xi $s.t.\ y_i(w^Tx+b) \geq1, \ \forall x_i$

在该问题中，约束条件为仿射函数，为凸二次规划问题，可以直接求解。但推导得到等价的对偶问题后，可以更高效地求解。

拉格朗日乘数法与对偶问题

不失一般性，定义原问题 $p^*$ 如下:

min f(w)min f(w) $\min\ f(w)$

s.t.gi(w)≤0s.t.gi(w)≤0 $s.t. g_i(w)\leq0$

构造拉格朗日函数：

L(w,α)=f(w)+∑iαigi(w)L(w,α)=f(w)+∑iαigi(w) $L(w,\alpha)=f(w)+\sum_i\alpha_ig_i(w)$

定义：

θp(w)=maxαi≥0L(w,α)θp(w)=maxαi≥0L(w,α) $\theta_p(w)=\max_{\alpha_i\geq0}L(w,\alpha)$

有：

θ p (w) = {f (w) + \infty 限 制 满 足 限 制 不 满 足

$\theta_p(w)=\begin{cases} f(w) & 限制满足 \\ +\infty & 限制不满足 \end{cases}$

在 $\alpha_i\geq0$ 的前提下，若不满足 $g_i(w)\leq0$ ，可取不满足的约束，取对应 $\alpha_i$ 为无穷，则函数为无穷。此时原问题 $p^*$ 的等价表述为：

min f(w)=min θp(w)=minmaxαi≥0L(w,α) 即为p∗min f(w)=min θp(w)=minmaxαi≥0L(w,α) 即为p∗ $\min\ f(w) = \min\ \theta_p(w) = \min\max_{\alpha_i\geq0}L(w,\alpha) \ 即为p^*$

得到对偶问题 $d^*$ 为：

max α i \geq 0 min L (w, α) = max α i \geq 0 θ D (w) 令 为 d * 其 中 θ D (w) = min L (w, α)

$\max_{\alpha_i\geq0} \min L(w,\alpha) = \max_{\alpha_i\geq0} \theta_D(w)\ 令为d^* \\ 其中\ \theta_D(w)=\min L(w,\alpha)$

当满足KKT条件时：

⎧ ⎩ ⎨ ⎪ ⎪ α i \geq 0 g i (w) \leq 0 α i g i (w) = 0

$\begin{cases} \alpha_i\geq0 \\ g_i(w)\leq0 \\ \alpha_ig_i(w)=0 \end{cases}$

原问题和对偶问题有相同的解。

SVM对偶问题

回到SVM原问题 $p^*$ :

min 12||w||2min 12||w||2 $min \ \frac{1}{2}{||w||}^2$

s.t. yi(wTx+b)≥1, ∀xis.t. yi(wTx+b)≥1, ∀xi $s.t.\ y_i(w^Tx+b) \geq1, \ \forall x_i$

构造拉格朗日算子，显然有：

f(w)=12||w||2f(w)=12||w||2 $f(w)=\frac{1}{2}||w||^2$

gi(w)=1−yi(wTxi+b)≤0gi(w)=1−yi(wTxi+b)≤0 $g_i(w)=1-y_i(w^Tx_i+b)\leq0$

L(w,α)=f(w)+∑iαigi(w)L(w,α)=f(w)+∑iαigi(w) $L(w,\alpha)=f(w) + \sum_i\alpha_ig_i(w)$

通过解对偶问题来解原问题

max α i \geq 0 min L (w, α) = max α i \geq 0 θ D (w) 其 中 θ D (w) = min w, b L (w, α)

$\max_{\alpha_i\geq0} \min L(w,\alpha) = \max_{\alpha_i\geq0} \theta_D(w)\ \\ 其中\ \theta_D(w)=\min_{w,b} L(w,\alpha)$

对于 $L(w,\alpha)$ ，极值在偏导为0处取到(注意此时 $L只是关于w和b的函数$ )，令：

∂L∂w=0, ∂L∂b=0∂L∂w=0, ∂L∂b=0 $\frac{\partial L}{\partial w}=0, \ \frac{\partial L}{\partial b}=0$

得到：

w=∑iαiyixi, ∑iαiyi=0w=∑iαiyixi, ∑iαiyi=0 $w=\sum_i\alpha_i y_ix_i, \ \sum_i\alpha_i y_i=0$

将 $w$ 代回 $L$ ，得到：

minw,bL=∑iαi−12∑i∑jαiαjyiyjxTixj, 记为W(α)minw,bL=∑iαi−12∑i∑jαiαjyiyjxiTxj, 记为W(α) $\min_{w,b} L=\sum_i \alpha_i-\frac{1}{2}\sum_i \sum_j \alpha_i \alpha_j y_i y_j x_i^{T} x_j, \ 记为W(\alpha)$

可以看到 $L$ 只是关于 $\alpha$ 的函数，对偶问题即为：

d∗=maxW(α)d∗=maxW(α) $d^*=\max W(\alpha)$

s.t. αi≥0, ∑iαiyi=0s.t. αi≥0, ∑iαiyi=0 $s.t. \ \alpha_i \geq0, \ \sum_i \alpha_i y_i=0$

此时回过头来，我们看KKT条件，易得若 $\alpha_i >0$ ，则有 $g_i(w)=0$ ，即 $y_i(w^Tx_i+b)=1$ ， $x_i$ 位于间隔超平面上，我们称这样的样本为支持向量。当我们求解得到 $\alpha_i$ 代入后，由 $w=\sum_i \alpha_i y_i x_i$ 即可得到 $w$ ，由任意一支持向量均满足 $g_i(w)=0$ ，将 $w,x_i,y_i$ 代入即可得到 $b$ ，最终判别函数为：