机器学习（四）——SVM（续）

最新推荐文章于 2025-04-12 23:49:54 发布

ykjs_

最新推荐文章于 2025-04-12 23:49:54 发布

阅读量135

点赞数

文章标签：机器学习支持向量机

本文链接：https://blog.youkuaiyun.com/ykjs_/article/details/110006525

版权

本文介绍了SVM标准型的改进方法，通过拉格朗日乘数和对偶问题转换，重点讨论了核函数在处理线性和非线性数据集的作用，以及软间隔SVM的概念，包括误分类容忍度和优化目标。最后，概述了常用核函数及解决对偶问题的高效算法应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前的SVM标准型显然是一个凸二次规划问题，我们可以用二次规划的知识进行求解，得到目标的超平面，但其实我们还有更高效的方法。
先看之前的SVM标准型 $\frac{1}{2}||\omega||^2$ $\quad y^{(i)}(\omega^Tx_i+b)\geq 1,i=1,2,\cdots,n$ 由拉格朗日乘数法的启发，我们改写一下该问题，令函数
$L(\omega,\alpha,b)=\frac{1}{2}||\omega||^2+\sum_{i=1}^m\alpha_i(1-y_i(\omega^Tx_i+b))$ 由标准型条件能够发现
$L(\omega,\alpha,b)\leq\frac{1}{2}||\omega||^2$ 即 $L(\omega,\alpha,b)$ 为目标函数的一个下界，或者说我们的目标就是找到 $L(\omega,\alpha,b)$ 的最小上界，则目标变为求
$min_{\omega,b}max_{\alpha_i\geq0}L(\omega,\alpha,b)$ 原问题不易求解，所以我们转而求其对偶问题：找出 $L(\omega,\alpha,b)$ 的最大下界 $max_{\alpha_i\geq0}min_{\omega,b}L(\omega,\alpha,b)$ 所以对 $\omega$ 和 $b$ 求偏导
$\frac{\partial L(\omega,\alpha,b)}{\partial\omega}=\omega-\sum_{i=1}^m\alpha_iy_ix_i$
$\frac{\partial L(\omega,\alpha,b)}{\partial b}=-\sum_{i=1}^m\alpha_iy_i$ 令两偏导等于0，可以发现此时所取的值为 $L(\omega,\alpha,b)$ 的极小值，将所得的结果带入，对偶问题变为
$max_{\alpha_i\geq0}\quad\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$ $s.t.\quad\sum_{i=1}^m\alpha_iy_i=0$ 关于原问题与对偶问题最优取值的关系，我们有库恩-塔克条件(KKT条件)
$\begin{cases} \alpha_i\geq0 \\ y_i(\omega^Tx_i+b)-1\geq0 \\ \alpha_i(y_i(\omega^Tx_i+b)-1)=0 \end{cases}$ 当满足此条件时，原问题与对偶问题的最优值相同。此时，针对该问题的对偶问题的解就对应着原问题的解，关于对偶问题，同样可以用二次规划来解决，但是效率也不高，人们就有一些高效的算法来处理这个问题（例如SMO算法）

上述的方法只能用于处理线性可分的数据集，但对于线性不可分的数据集，就需要用到我们接下来介绍的核函数技巧。

其实核函数技巧和之前的多变量线性回归的思路相同，同样是将有限维的数据映射到高维，显然，对于有限个属性，我们总能找到一个高维的特征空间使得样本分开。我们用 $\phi(x)$ 来表示将 $x$ 从低维映射到高维的一个特征向量。分类超平面即可表示为
$f(x)=\omega^T\phi(x)+b$ 其SVM标准型为
$\frac{1}{2}||\omega||^2$ $\quad y^{(i)}(\omega^T\phi(x_i)+b)\geq 1,i=1,2,\cdots,n$ 对偶问题为
$max_{\alpha_i\geq0}\quad\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)$ $s.t.\quad\sum_{i=1}^m\alpha_iy_i=0$ 接下来的难点就在于 $\phi(x)$ 的维数可能很高，直接计算十分麻烦，为了简化我们令
$\kappa(x_i,x_j)=\langle\phi(x_i),\phi(x_j)\rangle=\phi(x_i)^T\phi(x_j)$ 那么对偶问题就变为
$max_{\alpha_i\geq0}\quad\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\kappa(x_i,x_j)$ $s.t.\quad\sum_{i=1}^m\alpha_iy_i=0$ 接下来的问题就在于如何找到一个可行的 $\kappa(x_i,x_j)$
关于 $\kappa(x_i,x_j)$ ,我们有如下定理：对于任意数据集 $\{x_1,x_2\cdots x_n\}$ ，由核函数导出的核矩阵
$\begin{pmatrix} \kappa(x_1,x_1) & \kappa(x_1,x_2) & \kappa(x_1,x_3) & \cdots & \kappa(x_1,x_n) \\ \kappa(x_2,x_1) & \kappa(x_2,x_2) & \kappa(x_2,x_3) & \cdots & \kappa(x_2,x_n) \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \kappa(x_n,x_1) & \kappa(x_n,x_2) & \kappa(x_n,x_3) & \cdots & \kappa(x_n,x_n) \\ \end{pmatrix}$ 应是半正定且对称的，满足以上条件的函数才能够作为核函数。(证明见这里)
注意：对于任意一个给定的映射 $\phi(x)$ ，我们都能够找到一个 $\kappa(x_i,x_j)$ 。同样，倘若核函数 $\kappa(x_i,x_j)$ 确定，那么映射 $\phi(x)$ 也就同样确定了。因此核函数的种类选择从根本上控制着这样一个SVM分类器的效果。（给定映射 $\phi(x_i,x_j)$ 找到 $\kappa(x_i,x_j)$ 很容易理解，给定 $\kappa(x_i,x_j)$ ，找到原映射 $\phi(x_i,x_j)$ 的证明见这里）
下面给出一些常用的核函数
在这里插入图片描述
这之后我们就可以利用之前解决这个对偶问题的高效算法来得出目标的分类超平面了。

这之前我们所介绍的数据集处理方法都是针对与线性可分(或是本身线性不可分，映射至高维空间后线性可分)的数据，但我们往往很难保证我们得到的分类超平面是否会出现过拟合的情况，也同样很难刚刚好能够使用一个常见的核函数将两组数据划分开来，为此我们需要自身这个模型允许一定的错误，这就是我们将要介绍的软间隔支持向量机，此前我们所讲的支持向量机都是硬间隔支持向量机。

本身允许一定的错误即存在某些点使得
$y_i(\omega^Tx_i+b)<1$ 同时要保证误分类的点尽可能的少，优化的目标就变为
$min\quad\frac{1}{2}||\omega||^2+C\sum_{i=1}^ml_{0/1}(y_i(\omega^Tx_i+b)-1)$ 上式中的 $l_{0/1}$ 为 $l_{0/1}(z)= \begin{cases} 1, & z<0 \\ 0, & z\geq0 \end{cases}$ C被我们称作惩罚系数，C越大，对误分类点的容忍度越低。与之前一样，因为 $l_{0/1}$ 是一个不可导的非凸函数，难以优化，我们就用别的函数来代替这个 $l_{0/1}$ 函数。常用来代替损失函数的函数如下
在这里插入图片描述采用第一个代替损失函数，我们的问题就变为了
$min\quad\frac{1}{2}||\omega||^2+C\sum_{i=1}^mmax(0,1-y_i(\omega^Tx_i+b))$ 引入松弛变量 $\xi_i$ 问题变为 $min\quad\frac{1}{2}||\omega||^2+C\sum_{i=1}^m\xi_i$ $s.t.\quad y_i(\omega^Tx_i+b)\geq1-\xi_i$ $\xi_i\geq0\quad i=1,2,\cdots,m$ 根据之前的对偶问题可以将目标函数转化为 $L(\omega,b,\alpha,\xi,\mu)=\frac{1}{2}||\omega||^2+C\sum_{i=1}^m\xi_i+\sum_{i=1}^m\alpha_i(1-\xi_i-y_i(\omega^Tx_i+b))+\sum_{i=1}^m\mu_i\xi_i$ 对 $\omega$ 、 $b$ 、 $\xi$ 求偏导并令其等于0得到 $\omega=\sum_{i=1}^m\alpha_iy_ix_i$ $0=\sum_{i=1}^m\alpha_iy_i$ $C=\alpha_i+\mu_i$ 代入得到 $max_{\alpha_i\geq0}\quad\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$ $s.t.\quad\sum_{i=1}^m\alpha_iy_i=0$ $0\leq\alpha_i\leq C\quad i=1,2,\cdots,m$ 同样要满足KKT条件 $\begin{cases} \alpha_i\geq0,\mu_i\geq0 \\ y_i(\omega^Tx_i+b)-1+\xi_i\geq0 \\ \alpha_i(y_i(\omega^Tx_i+b)-1+\xi_i)=0 \\ \xi_i\geq0,\mu_i\xi_i=0\end{cases}$ 换用其他的替代损失函数也可以参照这个方法处理，这之后再用之前的高效算法就能够求解。