机器学习面试必知：一文理解支持向量机(SVM)

最新推荐文章于 2024-09-02 09:56:22 发布

原创最新推荐文章于 2024-09-02 09:56:22 发布 · 723 阅读

CC 4.0 BY-SA版权

文章标签：

39 篇文章

订阅专栏

39 篇文章

订阅专栏

23 篇文章

订阅专栏

本文详细解析了SVM支持向量机的工作原理，包括决策距离最大化的数学推导，核函数的引入，以及对偶问题的求解过程。通过求解目标函数，得到最优分类超平面，实现数据分类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 首先我们要是决策距离最大化

我们先来求点 $x$ 到一个超平面 $f(x)=w^{T}x+b$ 的距离：
假设有一点 $x$ ，垂直投影到超平面上对应点为 $x_{0}$ , $w$ 是垂直于超平面的一个向量， $γ\gamma$ 为样本 $x$ 到超平面的距离。易知 $x=x0+γw∣∣w∣∣x=x_{0}+\gamma \frac{w}{||w||}$ , 同乘 $w^{T}$ , $wTx=wTx0+γwTw∣∣w∣∣w^{T}x=w^{T}x_{0}+\gamma w^{T} \frac{w}{||w||}$ 。因为 $w^{T}x_{0}=-b$ ，所以可以化解为 $wTx+b=γ∣∣w∣∣2∣∣w∣∣w^{T}x+b=\gamma\frac{||w||^{2}}{||w||}$ ，可以得到 $γ=f(x)∣∣w∣∣\gamma=\frac{f(x)}{||w||}$ ，这里我们只关心那些分类正确的点 $tnf(xn)∣∣w∣∣,tnf(xn)⩾1\frac{t_{n}f(x_{n})}{||w||},t_{n}f(x_{n}) \geqslant 1$ 。所以我们就有了目标函数 $max1∣∣w∣∣=min0.5∗∣∣w∣∣2max\frac{1}{||w||}=min 0.5*||w||^{2}$ $s.t.(wTϕ(xn)+b)tn⩾1,n=1,...,N\mathrm{s.t.} (w^{T}\phi(x_{n})+b) t_{n} \geqslant 1, n=1,...,N$
为了更好地引出核函数，我们假设先对x做了一个预处理 $ϕ(x)\phi(x)$

2. 变换到对偶问题求解出 $w$
$L(w,a,b)=12∣∣w∣∣2−∑n=1Nan((wTϕ(xn)+b)tn−1)L(w,a,b)=\frac{1}{2}||w||^{2}-\sum_{n=1}^{N}a_{n}( (w^{T}\phi(x_{n})+b) t_{n} -1)$

首先固定 $a$ ，让L分别对w和b求偏导等于0得到 $w=∑n=1Nantnϕ(xn)w=\sum_{n=1}^{N}a_{n}t_{n}\phi(x_{n})$ $∑n=1Nantn=0\sum_{n=1}^{N}a_{n}t_{n}=0$ 将结果代入得到 $L(a)=∑n=1Nan−12∑n=1N∑m=1NanamtntmK(xn,xm)L(a)=\sum_{n=1}^{N}a_{n}-\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_{n}a_{m}t_{n}t_{m}K(x_{n},x_{m})$
求解a的极大化,其中 $K(xn,xm)=ϕT(xn)ϕ(xm)K(x_{n},x_{m})=\phi^{T}(x_{n})\phi(x_{m})$ 是核函数 $\left \{ \sum_{n=1}^{N}a_{n}-\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_{n}a_{m}t_{n}t_{m}K(x_{n},x_{m}) \right \}$ $an⩾0,∑n=1Nantn=0,K(xn,xm)=ϕT(xn)ϕ(xm)\textbf{s.t. } a_{n}\geqslant 0,\sum_{n=1}^{N}a_{n}t_{n}=0,K(x_{n},x_{m})=\phi^{T}(x_{n})\phi(x_{m})$

3. 求解b

我们把w代入可以超平面得 $f(x)=∑n=1NantnK(x,xn)+bf(x)=\sum_{n=1}^{N}a_{n}t_{n}K(x,x_{n})+b$ 利用KKT条件得到 $an⩾0a_{n}\geqslant 0$ $tnf(xn)−1⩾0t_{n}f(x_{n})-1 \geqslant 0$ $an{tnf(xn)−1}=0a_{n}\left\{ t_{n}f(x_{n})-1\right\}=0$ 所以只存在两种情况要吗 $a_{n}=0$ 此时 $x_{n},t_{n})$ 是无关数据或者 $an≠0,tnf(xn)−1=0a_{n} \neq 0,t_{n}f(x_{n})-1=0$ 此时 $x_{n},t_{n})$ 是决策边缘边界上的点。从这里可以看出SVM仅仅与决策边界上的数据点有关，与其余的数据点无关。假设有效的点分布在一个S空间中那么我们用支持向量 $x_{n}$ 就能确定b。由 $t_{n}f(x_{n})=1$ 我们可以得到(其中 $N_{S}$ 是支持向量的总数量) $tn{∑m∈SamtmK(xn,xm)+b}=1t_{n}\left\{\sum_{m\in S}a_{m}t_{m}K(x_{n},x_{m})+b\right\}=1$ $tn2{∑m∈SamtmK(xn,xm)+b}=tnt_{n}^{2}\left\{\sum_{m\in S}a_{m}t_{m}K(x_{n},x_{m})+b\right\}=t_{n}$ $b=1NS∑n∈S{tn−∑m∈SamtmK(xn,xm)}b=\frac{1}{N_{S}}\sum_{n\in S}\left\{t_{n}-\sum_{m\in S}a_{m}t_{m}K(x_{n},x_{m})\right\}$