SVM

最新推荐文章于 2025-05-31 16:59:41 发布

yuzaer

最新推荐文章于 2025-05-31 16:59:41 发布

阅读量183

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_37920823/article/details/90027773

SVM

文章目录

@[toc]
问题的提出
问题的求解
$SMO$ 算法

问题的提出

针对分类问题，我们经常会尝试构建一个线性判别边界，尝试将样本进行划分。

通过进行特征变换，支持向量机将在变换后的大的特征空间内产生超平面判别边界，对应在原空间为非线性边界。

假设我们有 $N$ 个数据 $(x_i,y_i),x_i \in R^p,y_i \in \{-1,1\}$

定义超平面

$\{x: f(x) = x^T\beta + \beta_0 = 0\}$

导出的优化问题为：

$\max_{\beta,\beta_0,||\beta|| = 1} C$ $y_i(x_i^T\beta + \beta_0) \geq C,i = 1,...,N$

等价于

$\min_{\beta} ||\beta||$ $y_i(x_i^T\beta + \beta_0) \geq 1,i = 1,...,N$
即此时 $1/||\beta||$

对应软间隔形式可以写为：

$\min_{\beta} ||\beta||$ $y_i(x_i^T\beta + \beta_0) \geq 1 - \xi_i,\xi_i \geq0,\sum\xi_i\leq K$

关于 $K$ 的理解：
$\xi_i$ 代表了使得预测 $f(x_i) = \beta_0 + x_i^T\beta$ 出现在错误一侧的比例
那么 $\sum\xi_i\leq K$ 控制了出错的总比例

进一步可以写成等价的便于求解的形式，将 $||\beta||$ 写成二次，同时将 $\sum\xi_i\leq K$ 写入优化目标：
$\min_{\beta} \frac{1}{2}||\beta||^2 + \gamma\sum_{i=1}^N \xi_i$ $y_i(x_i^T\beta + \beta_0) \geq 1 - \xi_i,\xi_i \geq0$

问题的求解

容易写出对应的拉格朗日函数

$\frac{1}{2}||\beta||^2 + \gamma \sum_{i=1}^N\xi_i - \sum_{i=1}^N\alpha_i[y_i(x_i^T\beta+\beta_0) - (1-\xi_i)] - \sum_{i=1}^N\mu_i\xi_i$

对参数 $\beta,\beta_0,\xi_i$ 求偏导，对其极小化

$\beta = \sum_{i=1}^N\alpha_iy_ix_i$ $\sum_{i=1}^N\alpha_iy_i$ $\alpha_i = \gamma - \mu_i,{\forall i}$

我们可以得到对应的对偶函数：

$L_D = \sum_{i=1}^N\alpha_i - \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_i^Tx_j$

对应加入 $K K T$ 条件

$\alpha_i[y_i(x_i^T \beta + \beta_0) - (1 - \xi_i)] = 0$ $\mu_i\xi_i = 0$ $y_i(x_i^T\beta+\beta_0) - (1-\xi_i) \geq 0$

可以发现 $\beta$ 的解的形式为：

$\hat \beta = \sum_{i=1}^N\hat \alpha_iy_ix_i$

同时由条件
$\alpha_i[y_i(x_i^T \beta + \beta_0) - (1 - \xi_i)] = 0$
可以发现对于那些具有非零系数 $\alpha_i$ 的观测样本， $\hat \beta$ 只由这些样本表示，这些样本被称为支持向量。

这些样本中，除了部分在边缘处，即有 $\xi_i = 0$ ,则由 $\mu_i\xi_i = 0,\alpha_i = \gamma - \mu_i$ ，得出这些样本将会由 $0<\hat \alpha_i < \gamma$ 来刻画；其余的 $\xi_i > 0$ 的样本，有 $\hat \alpha_i = \gamma$

求解
$L_D = \sum_{i=1}^N\alpha_i - \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_i^Tx_j$ $C\geq\alpha_i \geq 0,i = 1,...,m$ $\sum_{i=1}^m\alpha_iy_i = 0$

对应的 $K K T$ 条件为

$\begin{cases} \alpha_i \geq 0 ,\mu_i \geq 0, \\ y_if(x_i) -1+\xi_i \geq 0,\\ \alpha_i(y_if(x_i) -1+\xi_i) = 0,\\ \xi_i \geq 0,\mu_i\xi_i = 0. \end{cases}$

其中 $f(x_i) = x_i^T \beta + \beta_0$

是一个较为简单的凸二次规划问题。可以使用标准的求解方式进行求解。

核形式：

$L_D = \sum_{i=1}^N\alpha_i - \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jk(x_i,x_j)$ $C\geq\alpha_i \geq 0,i = 1,...,m$ $\sum_{i=1}^m\alpha_iy_i = 0$

$S M O$ 算法

我们容易发现， $S V M$ 的最终优化目标是找到一组 $\alpha$ 以及 $b$ 。

$S M O$ 算法采用了一种分而治之的想法，每一次只优化其中两个参数 $\alpha_i,\alpha_j.$ 至于一次优化两个参数的原因为约束 $\sum_{i=1}^m\alpha_iy_i = 0$
的存在使得我们一次最少要同时优化两个参数。

下面给出 $S M O$ 的具体细节：

当我们只考虑 $\alpha_1,\alpha_2$ 时，优化目标就变成

$\frac{1}{2}K_{11}\alpha_1^2 + \frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2 - (\alpha_1+\alpha_2)$ $+\alpha_1y_1\sum_{i \neq 1,2}^N\alpha_iy_iK_{1i}+\alpha_2y_2\sum_{j \neq 1,2}^N\alpha_jy_jK_{2j}+c$

其中 $c$ 是一个与 $\alpha_1,\alpha_2$ 无关的常数, $K_{ij}$ 代表 $K(x_i,x_j)$ .

由约束条件可以得到

$\alpha_1y_1+\alpha_2y_2 = C \Rightarrow \alpha_1 = (C - \alpha_2y_2)y_1$

代入上式可得

$min\ l(\alpha_2) = \frac{1}{2}K_{11}(C-\alpha_2y_2)^2+\frac{1}{2}K_{22}\alpha_2^2+y_2K_{12}\alpha_2(C - \alpha_2y_2)$ $y_1(C - \alpha_2y_2) - \alpha_2 + (C - \alpha_2y_2)\sum_{i \neq{1,2}}^N\alpha_iy_iK_{1i}+\alpha_2y_2\sum_{j \neq 1,2}^N\alpha_jy_jK_{2j}+c$

上式对 $\alpha_2$ 求偏导可以得到

$\frac{\partial l(\alpha_2)}{\partial\alpha_2} = (K_{11}+K_{22} - 2K_{12})\alpha_2 - K_{11}Cy_2+K_{12}Cy_2 + y_1y_2$ $y_2\sum_{i \neq 1,2}^N\alpha_iy_iK_{1i}+y_2\sum_{j \neq 1,2}^N\alpha_jy_jK_{2j}$

由约束条件可以得到：

$\begin{cases} \alpha_1^{old}y_1 + \alpha_2^{old}y_2 = C\\ \sum\nolimits_{i \neq1,2}^N\alpha_iy_iK_{1i} = f(x_1) - y_1\alpha_1K_{11} - y_2\alpha_2K_{12} - b\\ \sum\nolimits_{j \neq1,2}^N\alpha_jy_jK_{2j} = f(x_2) - y_1\alpha_1K_{21} - y_2\alpha_2K_{22} - b \end{cases}$

代入上式化简后可得

$\alpha_2^{new} = \alpha_2^{old} + \frac{y_2\{[f(x_1) - y_1] - [f(x_2) - y_2]\}}{K_{11}+K_{22}-2K_{12}}$

我们得到了更新 $\alpha_2$ 的主要公式，但是由于 $\alpha_2$ 有取值范围 $(0, C)$ ，所以需要进行一定的修改

$\alpha_1y_1+\alpha_2y_2 = k$

同时 $y$ 的取值就只有 $1, - 1$ ，所以容易讨论出最终的更新公式为

$\begin{cases} \alpha_2 = high, & \alpha_2^{new} \geq high ;\\ \alpha_2 = low, & \alpha_2^{new} \leq low ;\\ \alpha_2 = \alpha_2^{new}, & low < \alpha_2^{new}< high\\ \end{cases}$

其中
$\begin{cases} low = max(0,- k)\\ high = min(C,C - k) \end{cases}$

对应 $\alpha_1$ 的更新公式为

$\alpha_1^{new} = \alpha_1^{old} + y_1y_2(\alpha_2^{old} - \alpha_2^{new})$

接下来给出 $b$ 的更新公式

$\begin{cases} b_1^{new} = -E_1 - y_1K_{11}(\alpha_1^{new} - \alpha_1^{old}) - y_2K_{21}(\alpha_2^{new} - \alpha_2^{old}) + b^{old},\\ b_2^{new} = -E_2 - y_1K_{12}(\alpha_1^{new} - \alpha_1^{old}) - y_2K_{22}(\alpha_2^{new} - \alpha_2^{old}) + b^{old},\\ b_{new} = \frac{b_1^{new}+b_2^{new}}{2}\\ \end{cases}$