机器学习进阶（四）SVM(不完善)

最新推荐文章于 2022-08-23 19:30:00 发布

Little Yueyue

最新推荐文章于 2022-08-23 19:30:00 发布

阅读量163

点赞数

分类专栏：菜鸟入门倒计时

本文链接：https://blog.youkuaiyun.com/little_yueyue/article/details/114495791

版权

菜鸟入门倒计时专栏收录该内容

40 篇文章

订阅专栏

支持向量机
SVN

支持向量机

以二分类为例， $y_i\in\{-1,1\}$ ，+1为正例，-1为负例

线性可分数据集的支持向量机

间距

样本 $(\bm{x_i},y_i)$ 到超平面 $f(x)=w^Tx+b$ 的距离为（假设正例在正向，负例在负向）,
$d=\frac{y_i(w^T\bm{x_i}+b)}{\sqrt{||w||_2}},$

超平面

假设给定线性可分训练数据集，通过间隔最大化得到的分离超平面为
$y(x)=w^T\Phi(x)+b,$
相应的分类决策函数为 $f(x)=\operatorname{sign}\left(w^{T} \Phi(x)+b\right)$ 。

该决策函数称为线性可分支持向量机。
$\Phi(x)$ 是某个确定的特征空间转换函数，作用是将 $x$ 映射到(更高的)维度。
最简单直接的： $\Phi(x)=x$
求解分离超平面问题可以等价为求解相应的凸二次规划问题
$\left\{\begin{array}{l} y\left(x_{i}\right)>0 \Leftrightarrow y_{i}=+1 \\ y\left(x_{i}\right)<0 \Leftrightarrow y_{i}=-1 \end{array} \Rightarrow y_{i} \cdot y\left(x_{i}\right)>0\right.$
从而目标函数为
$\max_{w,b} \min_i \frac{y_{i} \cdot y\left(x_{i}\right)}{\|w\|}=\max_{w,b} \min_i \frac{y_{i} \cdot\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)}{\|w\|}$

目标函数

（PS：
由几何知识可知，空间任意一点x到超平面 $S:w^Tx+b=0$ 的距离公式为：
$\frac{(w^T\bm{x}+b)}{\sqrt{||w||_2}},$

设属于两个分类的支持向量到该超平面的距离都为 $d (> 0)$ ,由于支持向量是各自分类数据中，距离超平面最近的点，针对所有数据有以下不等式：

$\frac{(w^T\bm{x}+b)}{\sqrt{||w||_2}}\ge d$

公式(1)两边同除以d,可得：,使用换元法，令：
$\begin{cases} &\alpha^T=\frac{w^T}{d||w||}\\ & \beta=\frac{b}{d||w||} \end{cases}$

这样就得到约束条件常见形式:
$|\alpha^TX+\beta|\ge1$
只是改变了 $w^T\bm{x}+b$ 的函数值为 $\alpha^TX+\beta$ ，未改变点与平面的距离
）

可以通过等比例缩放 $w$ 和 $b$ 的方法（并未改变超平面的方向，只改变了 $\left(w^{T} \cdot \Phi(x_{i}\right)+b$ 的值），使得两类点的函数值都满足 $y(x_i)|≥1$ （两侧的支撑向量的函数值取到1)，，即
$y_{i} \cdot\left(w^{T} \cdot \Phi(x_{i}\right)+b)\ge1$

在这里插入图片描述
图中与超平面得间隔 $m a r g i n$ 为 $\frac{1}{||w||}$ .
从而目标函数转为
$\begin{aligned} &\max_{w,b} \min_i \frac{y_{i} \cdot\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)}{\|w\|}\\ \Leftrightarrow &\max_{w,b}\frac{1}{\|w\|},\quad s.t. \quad y_{i} \cdot\left(w^{T} \cdot \Phi(x_{i}\right)+b)\ge1,i=1,\dots,n\\ \Leftrightarrow &\min_{w,b}\frac{1}{2}\|w\|^2,\quad s.t. \quad y_{i} \cdot\left(w^{T} \cdot \Phi(x_{i}\right)+b)\ge1,i=1,\dots,n \end{aligned}$

由拉格朗日乘子法，得

$\alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)-1\right).\tag{1}$
由于原问题是极小极大问题
$\min _{w, b} \max _{\alpha} L(w, b, \alpha)$
原始问题的对偶问题，是极大极小问题
$\max _{\alpha} \min _{w, b} L(w, b, \alpha).$

拉格朗日乘子法求解

先求对偶问题中 $\min _{w, b} L(w, b, \alpha)$ 部分，将拉格朗日函数 $L(w,b,\alpha)$ 分别对 $w, b$ 求并令其为 0
$\begin{aligned} \frac{\partial L}{\partial w}=0 &\Rightarrow w=\sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right) \\ \frac{\partial L}{\partial b}=0& \Rightarrow 0=\sum_{i=1}^{n} \alpha_{i} y_{i} \end{aligned}\tag{2}$
将（2）式带入（1）得

$\begin{aligned} L(w, b, \alpha)=&\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)-1\right) \\ =& \frac{1}{2} w^{T} w-w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i} \\ =& \frac{1}{2} w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)-w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)-b \cdot 0+\sum_{i=1}^{n} \alpha_{i} \\ =& \sum_{i=1}^{n} \alpha_{i}-\frac{1}{2}\left(\sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)\right)^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right) \\ =&\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} \Phi^{T}\left(x_{i}\right) \Phi\left(x_{j}\right) \\ \end{aligned}$
下面求 $\min _{w, b} L(w, b, \alpha)$ 对 $\alpha$ 求极大，即
$\begin{aligned} &\max_{\alpha}\left(\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} \Phi^{T} \left(x_{i}\right) \Phi\left(x_{j}\right)\right)\\ s.t.&\quad\sum_{i=1}^{n} \alpha_{i} y_{i}=0,i=1,\dots,n \end{aligned}$
假设 $\bm{\alpha^*}=(\alpha_1^*,\dots,\alpha_n^*)$ 为最大化的解，则带入(2)可得
$\begin{aligned} w^{*} &=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} \Phi\left(x_{i}\right), \\ \end{aligned}$
将 $w^*$ 再带入 $(y_{i}\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)-1=0$ 得
$b^{*} =y_{i}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(\Phi\left(x_{i}\right) \cdot \Phi\left(x_{j}\right)\right).$
求得分离超平面 $w^*\Phi(x)+b^*=0$ ，那么分类决策函数即为 $f(x)=sign(w^*\Phi(x)+b^*)$ 。

可以看出只有 $\alpha_i^*>0$ 对应的样本点 $x_i,y_i)$ 对决策面起作用，称之为支撑向量。

线性不可分数据集的支持向量机

目标函数

若数据线性不可分，则增加松弛因子 $\xi_{i}\ge1$ ，使函数间隔加上松弛变量大于等于1。这样，约束条件变成

$y_{i}\left(w \cdot \Phi(x_{i})+b\right) \geq 1-\xi_{i}$
目标函数改为
$\begin{aligned} &\quad \min _{w, b} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}\\ s.t.&\quad y_{i}\left(w \cdot \Phi(x_{i})+b\right) \geq 1-\xi_{i},i=1,\dots,n\\ &\quad \xi_{i}\ge0,i=1,\dots,n \end{aligned}$
可以看成是最小化模型误差与核函数系数规模这两部分的和。
显然，C越大， $\sum_{i=1}^{N} \xi_{i}$ 越受关注，就会紧缩，间隔就小，反之越大。

拉格朗日乘子法求解

拉格朗日函数为
$\xi, \alpha, \mu) = \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{n} \xi_{i}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w \cdot\Phi(x_{i})+b\right)-1+\xi_{i}\right)-\sum_{i=1}^{n} \mu_{i} \xi_{i}$
求解目标函数的对偶问题即为上式拉格朗日函数的极大极小问题。

首先，对 $\xi$ 求偏导 \phi(x_{i})
$\begin{aligned} \frac{\partial L}{\partial w}=0 &\Rightarrow w=\sum_{i=1}^{n} \alpha_{i} y_{i} \phi\left(x_{i}\right) \\ \frac{\partial L}{\partial b}=0 &\Rightarrow 0=\sum_{i=1}^{n} \alpha_{i} y_{i} \\ \frac{\partial L}{\partial \xi_{i}}=0& \Rightarrow C-\alpha_{i}-\mu_{i}=0 \end{aligned}\tag{3}$
将上述三式带入拉格朗日函数中，得到
$\min _{w, b, \xi} L(w, b, \xi, \alpha, \mu)=-\frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{n} \alpha_{i}$
其次，对上式求关于 $\alpha$ 的极大，得到：
$\begin{aligned} &\max _{\alpha}-\frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(\Phi(x_{i}) \cdot \Phi(x_{j})\right)+\sum_{i=1}^{n} \alpha_{i} \\ \text { s.t. }& \sum_{i=1}^{n} \alpha_{i} y_{i}=0 \\ \quad &C-\alpha_{i}-\mu_{i}=0 \\ &\begin{array}{l} \alpha_{i} \geq 0 \\ \mu_{i} \geq 0, \quad i=1,2, \ldots, n \end{array} \end{aligned}$
化简可得
$\begin{aligned} &\max _{\alpha}-\frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(\Phi(x_{i})\cdot \Phi(x_{j})\right)+\sum_{i=1}^{n} \alpha_{i} \\ \text { s.t. }& \sum_{i=1}^{n} \alpha_{i} y_{i}=0 \\ \quad &0\le \alpha_{i}\le C \\ \end{aligned}$

假设 $\bm{\alpha^*}=(\alpha_1^*,\dots,\alpha_n^*)$ 为最大化的解，则带入(3)可得
$\begin{aligned} w^{*}&=\sum_{i=1}^{n} \alpha_{i}^{*} y_{i} \Phi(x_{i})\\ b^{*}&=\frac{\max _{i: y_{i}=-1} w^{*} \cdot x_{i}+\min _{i: y_{i}=1} w^{*} \cdot x_{i}}{2} \end{aligned}$
注意:

计算 $b^*$ 时，需要使用满足条件 $0<\alpha_{j}<\mathrm{C}$ 的向量。
软间隔的支持问量 $x_{i}$ 或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在分离超平面误分一侧：（理由还需弄清楚）
若 $\alpha_{i}^{*}<C,$ 则 $\xi_{i}=0,$ 支持向量 $x_{i}$ 恰好落在间隔边界上;
若 $\alpha_{i}^{*}=C, 0<\xi_{i}<1,$ 则分类正确， $x_{i}$ 在间隔边界与分离超平面之间;
若 $\alpha_{i}^{*}=C, \quad \xi_{i}=1,$ 则 $x_{i}$ 在分离超平面上;
若 $\alpha_{i}^{*}=C, \quad \xi_{i}>1,$ 则 $x_{i}$ 位于分离超平面误分一侧
实践中往往取支持向量的所有值取羊均，作为b*

求得分离超平面 $w^{*} x+b^{*}=0$ 决策函数为 $f(x)=\operatorname{sign}\left(w^{*} x+b^{*}\right)$ 。

核函数

使用核函数，将原始输入空间映射到新的特征空间，从而，使得原本线性不可分的样本可能在核空间可分。

将 $\kappa\left(x_{1}, x_{2}\right)$ 带入 $\Phi^{T}(x_{i}) \Phi(x_{j})$
多项式核函数： $\kappa\left(x_{1}, x_{2}\right)=\left(x_{1} \cdot x_{2}+c\right)^{d}$
高斯核RBF函数： $\kappa\left(x_{1}, x_{2}\right)=\exp \left(-\gamma \cdot\left\|x_{1}-x_{2}\right\|^{2}\right)$
Sigmoid核函数： $\kappa\left(x_{1}, x_{2}\right)=\tanh \left(x_{1} \cdot x_{2}+c\right)$
$H=(\kappa\left(x_{i}, x_{j}\right))_{n\times n}$ 为正定，是 $\kappa\left(x_{i}, x_{j}\right)$ 为核函数的必要条件

（PS：
以多项式核为例
$\begin{aligned} \kappa(\vec{x}, \vec{y})&=(\vec{x} \cdot \vec{y}+c)^{2} \\ &=(\vec{x} \cdot \vec{y})^{2}+2 c \vec{x} \cdot \vec{y}+c^{2} \\ &=\sum_{i=1}^{n} \sum_{j=1}^{n}\left(x_{i} x_{j}\right)\left(y_{i} y_{j}\right)+\sum_{i=1}^{n}\left(\sqrt{2 c} x_{i} \cdot \sqrt{2 c} y_{i}\right)+c^{2} \\ \end{aligned}$
相当于把输入 $x_{1\times n}$ 映射到了 $\Phi(\vec{x})_{1\times(n^2+n+1)}$
$\begin{aligned} \Phi(\vec{x})=&(x_{1} x_{1},\dots,x_{1} x_{n},\dots,x_{i} x_{1},\dots,x_{i} x_{n},\dots,x_{n} x_{1},\dots,x_{n} x_{n}\\ &\sqrt{2 c} x_{1},\dots,\sqrt{2 c} x_{i},\dots,\sqrt{2 c} x_{n}, c) \end{aligned}$
再对 $\Phi(\vec{x})$ 和 $\Phi(\vec{y})$ 求内积。

以高斯核为例，则
$\begin{array}{l} \kappa\left(x_{1}, x_{2}\right)=e^{-\frac{\left\|x_{1}-x_{2}\right\|^{2}}{2 \sigma^{2}}}=e^{-\frac{\left(x_{1}-x_{2}\right)^{2}}{2 \sigma^{2}}}=e^{-\frac{x_{1}^{2}+x_{2}^{2}-2 x_{1} x_{2}}{2 \sigma^{2}}}=e^{-\frac{x_{1}^{2}+x_{2}^{2}}{2 \sigma^{2}}} \cdot e^{\frac{x_{1} x_{2}}{\sigma^{2}}} \\ =e^{-\frac{x_{1}^{2}+x_{2}^{2}}{2 \sigma^{2}}} \cdot\left(1+\frac{1}{\sigma^{2}} \cdot \frac{x_{1} x_{2}}{1 !}+\left(\frac{1}{\sigma^{2}}\right)^{2} \cdot \frac{\left(x_{1} x_{2}\right)^{2}}{2 !}+\left(\frac{1}{\sigma^{2}}\right)^{3} \cdot \frac{\left(x_{1} x_{2}\right)^{3}}{3 !}+\cdots+\left(\frac{1}{\sigma^{2}}\right)^{n} \cdot \frac{\left(x_{1} x_{2}\right)^{n}}{n !}+\cdots\right) \\ =e^{-\frac{x_{1}^{2}+x_{2}^{2}}{2 \sigma^{2}}} \cdot\left(1 \cdot 1+\frac{1}{1 !} \frac{x_{1}}{\sigma} \cdot \frac{x_{2}}{\sigma}+\frac{1}{2 !} \cdot \frac{x_{1}^{2}}{\sigma^{2}} \cdot \frac{x_{2}^{2}}{\sigma^{2}}+\frac{1}{3 !} \cdot \frac{x_{1}^{3}}{\sigma^{3}} \cdot \frac{x_{2}^{3}}{\sigma^{3}}+\cdots+\frac{1}{n !} \cdot \frac{x_{1}^{n}}{\sigma^{n}} \cdot \frac{x_{2}^{n}}{\sigma^{n}}+\cdots\right) \\ =\Phi\left(x_{1}\right)^{T} \cdot \Phi\left(x_{2}\right) \\ \end{array}$
相当于把输入 $x_{1\times n}$ 映射到了 $\Phi(\vec{x})_{1\times\infty}$ 空间
$\Phi(x)=e^{-\frac{x^{2}}{2 \sigma^{2}}} \cdot\left(1 ,\sqrt{\frac{1}{1 !}}\frac{x}{\sigma} + \sqrt{\frac{1}{2 !} } \frac{x^{2}}{\sigma^{2}} ,\dots,\sqrt{\frac{1}{n !}} \frac{x^{n}}{\sigma^{n}} ,\cdots\right) \\$
再对 $\Phi(\vec{x})$ 和 $\Phi(\vec{y})$ 求内积。核函数只要好好调参，一定能成。
）