支持向量机学习

最新推荐文章于 2024-06-11 11:55:38 发布

leiyufei

最新推荐文章于 2024-06-11 11:55:38 发布

阅读量624

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：支持向量机

本文链接：https://blog.youkuaiyun.com/leiyufei/article/details/82925151

机器学习专栏收录该内容

1 篇文章

订阅专栏

线性可分支持向量机与硬间隔最大化

线性可分支持向量机

输入空间为欧式空间或离散集合，特征空间为欧式空间或者希尔伯特空间。线性可分支持向量机、线性支持向量机及非线性支持向量机的输入都由输入空间转换到特征空间，支持向量机的学习是在特征空间进行的。
假设给定一个特征空间上的训练数据集
$\{(x_1,y_1), (x_2,y_2), \ldots ,(x_n,y_n)\}$
其中， $xi∈X=Rn,yi∈Y={+1,−1},i=1,2,…,Nx_i \in X = R^n,y_i \in Y=\{+1,-1\},i=1,2, \ldots ,N$ ， $x_i$ 为第i个特征向量。 $y_i$ 为 $x_i$ 的类标记，当 $y_i=+1$ 时，称 $x_i$ 为正例；当 $y_i=-1$ 时，称 $x_i$ 为负例。
学习的目标是在特征空间中找到一个分离超平面，能将实例分到不同的类，分离超平面对应于方程 $\cdot x + b = 0$ ，它由法向量w和截距b决定，可由(w, b)来表示。
线性可分支持向量机：给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
$w^* \cdot x+b^*=0$
以及相应的分类决策函数
$f\left(x\right)=sign\left(w^* \cdot x+b^*\right)$
称为线性可分支持向量机。
线性可分支持向量机对应着将两类数据正确划分并且间隔最大的直线，如下图所示：
二类分类问题

函数间隔和几何间隔

一个点距离分离超平面的远近 $∣w⋅x+b∣\left \vert w \cdot x+b \right \vert$ 可以表示分类预测的确信度，而 $\cdot x +b$ 的符号与标记 $y$ 的符号是否一致能够表示分类的正确性，从而便有了函数间隔：
函数间隔：对于给定的训练数据集 $T$ 和超平面 $(w,b)\left (w,b\right )$ ，定义超平面 $(w,b)\left (w,b \right )$ 关于样本点 $(xi,yi)\left (x_i,y_i \right )$ 的函数间隔为
$γ^i=yi(w⋅x+b) \hat \gamma _i=y_i \left (w \cdot x+b \right )$
定义超平面关于训练数据集 $T$ 的函数间隔为超平面 $(w,b)\left (w,b \right )$ 关于 $T$ 中所有样本点 $(xi,yi)\left (x_i,y_i \right )$ 的函数间隔之最小值，即
$γ^=min⁡i=1,…,Nγ^i \hat \gamma = \min_{i=1, \ldots ,N} \hat \gamma _i$
只有函数间隔不够，只要成比例地改变 $w$ 和 $b$ ，如改为 $2 w$ 和 $2 b$ ，超平面未变，但函数间隔却成为原来的2倍。因此，通过规范化 $w$ ， $∥w∥\left \Vert w \right \Vert$ ，使得间隔确定，便引入了几何间隔的概念。
几何间隔：对应给定的训练数据集 $T$ 和超平面 $(w,b)\left (w,b \right )$ ，定义超平面 $(w,b)\left (w,b \right )$ 关于样本点 $(xi,yi)\left (x_i,y_i \right )$ 的几何间隔为
$\gamma _i = y_i \left ( \frac w{\left \Vert w \right \Vert} \cdot x_i+ \frac b{\left \Vert w \right \Vert}\right )$
定义超平面 $(w, b)$ 关于训练数据集 $T$ 的几何间隔为超平面 $(w, b)$ 关于 $T$ 中所有样本点 $(xi,yi)\left (x_i, y_i \right )$ 的几何间隔之最小值，即
$\gamma = \min _{i=1, \cdots , N} \gamma _i$

间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据集进行分类。

最大间隔分离超平面

最大间隔分离超平面可以表述为下面的约束最优化问题：
$\begin{array}{ll} \max_{w,b} \quad & \gamma \\ s.t. \quad & y_i \left ( \frac w{\left \Vert w \right \Vert} \cdot x_i+ \frac b{\left \Vert w \right \Vert} \right ) \geqslant \gamma , \quad i = 1,2, \cdots ,N \end{array}$
考虑几何间隔和函数间隔的关系，可将问题改写为：
$max⁡w,bγ^∥w∥s.t.yi(w⋅xi+b)⩾γ^,i=1,2,⋯ ,N \begin{array}{ll} \max_{w,b} \quad & \frac {\hat \gamma}{\left \Vert w \right \Vert} \\ s.t. \quad & y_i \left (w \cdot x_i+ b \right ) \geqslant \hat \gamma , \quad i = 1,2, \cdots ,N \end{array}$
函数间隔 $γ^\hat \gamma$ 的取值不影响最优化问题的解。假设将 $w$ 和 $b$ 按比例改变为 $λw\lambda w$ 和 $λb\lambda b$ ，则函数间隔变为 $λγ^\lambda \hat \gamma$ 。因此，可以取 $γ^=1\hat \gamma = 1$ ，注意到最大化 $1∥w∥\frac 1{\Vert w \Vert}$ 和最小化 $12∥w∥2\frac 12 {\Vert w \Vert}^2$ 是等价地，于是便得到：
线性可分支持向量机学习算法——最大间隔法
输入：线性可分训练数据集 $T={(x1,y1),(x2,y2),⋯ ,(xn,yn)}T=\{(x_1,y_1),(x_2,y_2), \cdots , (x_n,y_n)\}$ ，其中， $xi∈X=Rnx_i \in \Chi = R^n$ ， $yi∈Y={+1,−1}y_i \in Y=\{+1,-1\}$ ， $\cdots, N$ ；
输出：最大间隔分离超平面和分类决策函数。
（1）构造并求解约束最优化问题：
$\begin{array}{ll} \min_{w,b} \quad & \frac 12 {\Vert w \Vert}^2 \\ s.t. \quad & y_i(w \cdot x+b) -1 \geqslant 0, \quad i=1,2, \cdots ,N \end{array}$
求得最优解 $w^*$ ， $b^*$ 。
（2）由此得到分离超平面：
$w^* \cdot x + b^* = 0$
分类决策函数
$\text {sign}(w^* \cdot x+b^*)$
线性可分训练数据集的最大间隔分离超平面存在且唯一。

支持向量和间隔边界

在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量，支持向量是使约束条件 $yi(w⋅xi+b)−1=0y_i(w \cdot x_i+b)-1=0$ 等号成立的点。
从图中可以看到，在决定分离超平面时只有支持向量起作用，如果移动支持向量将改变所求的解；但是间隔边界以外移动其他实例点，甚至去掉这些点，解是不会改变的。所以，支持向量机由很少的“重要的”训练样本确定。

学习的对偶算法

根据前面的约束最优化问题，构建拉格朗日函数，引进拉格朗日乘子 $αi≥0\alpha _i \geq 0$ ， $\cdots , N$ ，定义拉格朗日函数：
$\left (w,b, \alpha \right )= \frac12 {\Vert w \Vert}^2- \sum_{i=1}^N \alpha _i y_i(w \cdot x_i + b)+ \sum_{i=1}^N \alpha _i$ 根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
$\max _ \alpha \min _{w,b} L \left (w,b, \alpha \right)$
在线性可分情况下，原始最优化问题和对偶最优化问题的最优值相等，所以存在 $w^*$ ， $α∗\alpha ^*$ ， $b^*$ ，使 $w^*,b^*$ 是原始问题的解， $α∗\alpha ^*$ 是对偶问题的解。
线性可分支持向量机学习算法：
输入：线性可分训练集 $T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2), \cdots , (x_N,y_N)\}$ ，其中 $xi∈X=Rn,yi∈Y={−1,+1},i=1,2,⋯ ,Nx_i \in X=R^n, y_i \in Y = \{-1,+1\},i=1,2, \cdots ,N$ ；
输出：分离超平面和分离决策函数
（1）构造并求解约束最优化问题
$\begin{array}{ll} \min _\alpha \quad & \frac 12 {\Vert w \Vert}^2 \\[2ex] s.t. \quad & \sum _{i=1}^N \alpha _i y_i=0 \\[2ex] & \alpha _i \geq 0, \quad ,i=1,2, \cdots ,N \end{array}$ 求得最优解 $α∗=(α1∗,α2∗,⋯ ,αN∗)T\alpha ^*=(\alpha_1^*, \alpha_2^*, \cdots , \alpha_N^*)^T$ 。
（2）计算
$w^*= \sum_{i=1}^N \alpha_i^* y_i x_i$ 并选择 $α∗\alpha^*$ 的一个正分量 $αj∗≥0\alpha_j^* \ge 0$ ，计算
$b^*=y_j- \sum_{i=1}^N \alpha_i^* y_i(x_i \cdot x_j)$ （3）求得分离超平面
$w^* \cdot x+b^*=0$ 分类决策函数：
$\left (x \right)= sign(w^* \cdot x + b^*)$
支持向量：将训练数据中对应 $αi∗≥0\alpha_i^* \ge 0$ 的样本点 $x_i,y_i)$ 的实例 $xi∈R∗x_i \in R^*$ 称为支持向量。
由KKT的对偶互补条件 $αi∗(yi(w∗⋅xi+b∗)−1)=0,i=1,2,⋯ ,N\alpha_i^*(y_i(w^* \cdot x_i+b^*)-1)=0, \quad i=1,2, \cdots ,N$ ，对应 $αi∗≥0\alpha_i^* \ge 0$ 的实例 $x_i$ ，有
$y_i(w^* \cdot x_i + b^*) -1=0$ 即 $x_i$ 一定在间隔边界上。

线性支持向量机与软间隔最大化

线性支持向量机

线性可分问题的支持向量机学习方法，不适用线性不可分问题，因为不可分意味着不等式约束 $yi(w⋅x+b)≥1y_i(w \cdot x +b) \geq 1$ 并不能都成立。怎么修改才能适用线性不可分情况？可以修改硬间隔最大化，使其成为软间隔最大化。
线性不可分意味着某些样本点 $x_i,y_i)$ 不能满足不等式约束。为了解决这个问题，可以对每个样本点 $x_i,y_i)$ 引进一个松弛变量 $ξi≥0\xi_i \geq 0$ ，使函数间隔加上松弛变量大于等于1。这样，约束条件变为
$y_i(w \cdot x_i + b) \geq 1- \xi_i$ 同时，对每个松弛变量 $ξi\xi_i$ ，支付代价 $ξi\xi_i$ 。目标函数由原来的 $12∥w∥2\frac12 {\Vert w \Vert}^2$ 变成
$\frac 12 {\Vert w \Vert}^2 + C \sum_{i=1}^N \xi_i$ 这里， $\gt 0$ 为惩罚参数， $C$ 值大时对误分类的惩罚增大， $C$ 值小时对误分类的惩罚减小。最小化目标函数包含两层含义：使 $12∥w∥2\frac12{\Vert w \Vert}^2$ 尽量小即间隔尽量大，同时使误分类点的个数尽量小， $C$ 是调和二者的系数。
线性支持向量机：对应给定的线性不可分的训练数据集，通过求解凸二次规划问题，即软间隔最大化问题，得到的分离超平面为
$w^* \cdot x+b^*=0$ 以及相应的分类决策函数
$\left (x \right ) = sign ( w^* \cdot x + b^*)$
线性支持向量机学习算法：
输入：训练数据集 $T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2), \cdots , (x_N,y_N)\}$ ，其中， $xi∈X=Rn,yi∈Y={+1,−1}, i=1,2,⋯ ,Nx_i \in X=R^n, y_i \in Y = \{+1,-1\}, \, i=1,2, \cdots ,N$ ；
输出：分离超平面和分类决策函数
（1）选择惩罚参数 $\gt 0$ ，构造并求解凸二次规划问题
$\begin{array}{ll} \min _\alpha \quad & \frac12 \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum_{i=1}^N \alpha_i \\[2ex] s.t. \quad & \sum _{i=1}^N \alpha _i y_i=0 \\[2ex] & 0 \leq \alpha _i \leq C, \quad ,i=1,2, \cdots ,N \end{array}$ 求得最优解 $α∗=(α1∗,α2∗,⋯ ,αN∗)T\alpha^*=(\alpha_1^*, \alpha_2^*, \cdots , \alpha_N^*)^T$ 。
（2）计算 $w∗=∑i=1Nαi∗yixiw^*=\sum_{i=1}^N \alpha_i^* y_i x_i$
选择 $α∗\alpha^*$ 的一个分量 $αj∗\alpha_j^*$ 适合条件 $\lt \alpha \lt C$ ，计算
$b^*=y_j- \sum_{i=1}^N y_i \alpha_i^* (x_i \cdot x_j)$ （3）求得分离超平面
$w^* \cdot x + b^*=0$ 分类决策函数：
$\left (x \right )=sign(w^* \cdot x+b^*)$

支持向量

在求解最优化问题的过程中， $αi\alpha_i$ 、 $C$ 、 $ξi\xi_i$ 、 $μi\mu_i$ 之间有如下关系：
$\begin{array}{ll} C- \alpha_i- \mu_i = 0 \\[2ex] \mu_i \xi_i=0 \\[2ex] \alpha_i (y_i(w \cdot x_i + b)-1+ \xi_i)=0 \end{array}$ 在线性不可分的情况下，对应于 $αi∗>0\alpha_i^* \gt 0$ 的样本点 $x_i,y_i)$ 的实例 $x_i$ 称为支持向量。
软间隔的支持向量，或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在分离超平面误分类一侧。
根据上面的关系：
若 $αi<C\alpha_i \lt C$ ，则 $ξi=0\xi_i = 0$ ，支持向量 $x_i$ 落在间隔边界上；
若 $αi=C\alpha_i = C$ ， $\lt \xi_i \lt 1$ ，则分类正确，支持向量 $x_i$ 落在间隔边界与分离超平面之间；
若 $αi=C\alpha_i = C$ ， $ξi=1\xi_i = 1$ ，则 $x_i$ 落在分离超平面上；
若 $αi=C\alpha_i = C$ ， $ξi>1\xi_i \gt 1$ ，则 $x_i$ 位于超平面误分一侧。

合页损失函数

线性支持向量机学习还有另外一个解释，就是最小化以下目标函数：
$\sum_{i=1}^N \left [ 1-y_i(w \cdot x_i +b)\right ]_+ + \lambda {\Vert w \Vert}^2$ 线性支持向量机原始最优化问题：
$\begin{array}{ll} \min_{w,b, \xi} & \frac12 {\Vert w \Vert}^2 + C \sum_{i=1}^N \xi_i\\[2ex] s.t. & y_i(w \cdot x_i + b) \geq 1- \xi_i, \quad i=1,2, \cdots , N\\[2ex] & \xi_i \geq 0, \quad i=1,2, \cdots , N \end{array}$ 等价于最优化问题
$\min_{w,b} \sum_{i=1}^N \left [ 1-y_i(w \cdot x_i +b)\right ]_+ + \lambda {\Vert w \Vert}^2$ 合页损失函数，横轴是函数间隔 $\cdot x+b)$ ，纵轴是损失。由于函数形状像一个合页，故名合页损失函数。

非线性支持向量机与核函数

核技巧

对给定训练数据集 $T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2), \cdots , (x_N,y_N)\}$ ，其中，实例 $x_i$ 属于输入空间， $xi∈X=Rnx_i \in X=R^n$ ，对应的标记有两类 $yi∈Y={+1,−1}y_i \in Y = \{+1,-1\}$ ， $\cdots , N$ 。如果能用 $R^n$ 中的一个超曲面将正负例正确分开，则称这个问题为非线性可分问题。
非线性问题不好解，所以希望能用线性分类问题的方法解决这个问题。采取的方法是进行一个非线性变换，将非线性问题转换为线性问题来求解。
核函数：设 $X$ 是输入空间（欧式空间 $R^n$ 的子集或离散集合），又设 $H$ 为特征空间（希尔伯特空间），如果存在一个从 $X$ 到 $H$ 的映射
$\phi \left (x \right):X \to H$ 使得对所以 $\in X$ ，函数 $K (x, z)$ 满足条件
$K(x,z)=\phi(x) \cdot \phi(z)$ 则称 $K (x, z)$ 为核函数， $ϕ(x)\phi(x)$ 为映射函数，式中 $ϕ(x)⋅ϕ(z)\phi(x) \cdot \phi(z)$ 是 $ϕ(x)\phi(x)$ 和 $ϕ(z)\phi(z)$ 的内积。
我们注意到线性支持向量机中，无论是对偶问题的目标函数还是决策函数都只涉及输入实例与实例之间的内积 $xi⋅xjx_i \cdot x_j$ 。用核函数 $K(xi,xj)=ϕ(xi)⋅ϕ(xj)K(x_i,x_j)=\phi(x_i) \cdot \phi(x_j)$ 代替，对偶问题的目标函数变为：
$W(\alpha)=\frac12\sum_{i=1}^N \sum_{i=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$ 分类决策函数变为：
$\left (\sum_{i=1}^{N_s}\alpha_i^*y_i\phi(x_i) \cdot \phi(x) + b^*\right)=sign \left(\sum_{i=1}^{N_s}\alpha_i^*y_iK(x_i,x)+b^*\right)$ 这等价于经过映射函数 $ϕ\phi$ 将原来的输入空间变换到一个新的特征空间，将内积 $xi⋅xjx_i \cdot x_j$ 变换为 $ϕ(xi)⋅ϕ(xj)\phi(x_i) \cdot \phi(x_j)$ ，在新的特征空间里从训练样本中学习线性支持向量机。学习是隐式地在特征空间进行的，不需要定义特征空间和映射函数。在实际中，往往依赖领域知识直接选择核函数，核函数选择的有效性需要通过实验验证。
常用核函数：高斯核函数是比较常用的，其他还有多项式核函数、字符串核函数。
高斯核函数：
$K(x,z)=exp\left(-\frac {{\Vert x-z \Vert}^2} {2\delta^2} \right)$ 对应的支持向量机是高斯径向基函数分类器，在此情形下分类决策函数为：
$f(x)=sign\left(\sum_{i=1}^{N_s}\alpha_i^*y_iexp\left(-\frac {{\Vert x-x_i \Vert}^2}{2\delta^2}\right)+b^*\right)$

非线性支持向量分类机

非线性支持向量机学习算法
输入：训练数据集 $T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2), \cdots ,(x_N,y_N)\}$ ，其中 $xi∈X=Rnx_i \in X =R^n$ ， $yi∈Y={+1,−1}y_i \in Y=\{+1,-1\}$ ， $\cdots , N$ 。
输出：分类决策函数。
（1）选取适当的核函数 $K (x, z)$ 和适当的参数 $C$ ，构造并求解最优化问题
$\begin{array}{ll} \min_\alpha & \frac12 \sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i\\[2ex] s.t. & \sum_{i=1}^N\alpha_iy_i=0\\[2ex] & 0 \leq \alpha_i \leq C, \quad i=1,2, \cdots , N \end{array}$ 求最优解 $α∗=(α1∗,α1∗,⋯ ,αN∗)\alpha^*=(\alpha_1^*, \alpha_1^*, \cdots , \alpha_N^*)$ 。
（2）选择 $α∗\alpha^*$ 的一个正分量 $\lt \alpha_j^* \lt C$ ，计算
$b^*=y_i-\sum_{i=1}^N\alpha_i^*y_iK(x_i \cdot x_j)$ （3）构造决策函数：
$\left(\sum_{i=1}^N\alpha_i^*y_iK(x \cdot x_i)+b^*\right)$

序列最小最优化算法

SMO(sequential minimal optimization)算法是一种启发式算法，其基本思路4是：如果所有变量的解都满足此最优化问题的KKT条件，
$\begin{array}{ll} \alpha_i=0 \iff y_ig(x_i) \geqslant 1 \\[2ex] 0 \lt \alpha_i \lt C \iff y_ig(x_i) =1\\[2ex] \alpha_i=C \iff y_ig(x_i) \leqslant 1 \end{array}$ 其中， $g(xi)=∑j=1NαiyiK(xi,xj)+bg(x_i)=\sum_{j=1}^N\alpha_iy_iK(x_i,x_j)+b$ ，那么这个最优化问题的解就得到。选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，且可以通过解析方法求解，大大提高整个算法的计算速度。
子问题由两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定。
Plat SMO算法，有两层循环，外层循环用来选择第一个 $αi\alpha_i$ 值，使用两种方式交替进行：第一种，遍历整个数据集，另一种在 $\lt \alpha_i \lt C$ 中扫描。以此来查找第一个违反KKT条件最严重的 $αi\alpha_i$ 。
判断是否违反：

if ((oS.labelMat[i] * Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or\
   ((oS.labelMat[i] * Ei > oS.tol) and (oS.alphas[i] < 0)):

内层循环，用来选择 $αj\alpha_j$ ，选择的目标是使 $∣Ei−Ej∣\lvert E_i-E_j \rvert$ 最大