SVM（2）-算法

最新推荐文章于 2025-06-16 16:24:27 发布

原创最新推荐文章于 2025-06-16 16:24:27 发布 · 653 阅读

0 ·

CC 4.0 BY-SA版权

机器学习算法专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了支持向量机的基本原理，包括线性可分支持向量机、线性支持向量机和非线性支持向量机的学习算法。重点阐述了最大间隔法、最大软间隔法和核技巧在不同情况下的应用，并通过核函数实现了非线性问题的解决。

SVM原理

当训练数据线性可分时，通过硬间隔最大化，学习线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机；
当训练数据近似线性可分时，通过软间隔最大化，学习线性分类器，即线性支持向量机，又称为软间隔支持向量机；
当训练数据线性不可分时，通过核技巧及软间隔最大化，学习非线性支持向量机。
函数间隔
定义训练数据集 $T$ ，超平面 $(w,b)$ , $(w\cdot x_i+b)$ 可以表示样本点 $x_i$ 距离超平面的距离，对于二分类问题， $y_i\in\{+1,-1\}$ ,此时 $y_i(w\cdot x_i+b)$ 的正负可以表示分类是否正确，那么使用

r^i = y i (w \cdot x i + b)

$\hat r_i=y_i(w\cdot x_i+b)$ 便可表示分类的正确性以及确信程度，上式定义为函数间隔。
超平面

(w,b) $(w,b)$ 关于训练数据

T $T$ 的函数间隔为超平面

(w,b) $(w,b)$ 关于

T $T$ 中所有样本点的函数间隔的最小值定义为：

r^= m i n r^i

$\hat r=min \ \hat r_i$ 函数间隔中，当

w $w$ 、

b $b$ 成比例增加时，超平面没有改变但是函数间隔却成比例增加了，为了避免这种情况，对超平面的法向量加以限制，引入几何间隔。
几何间隔
对于给定的训练数据集

T $T$ 和超平面

(w,b) $(w,b)$ ,定义超平面

(w,b) $(w,b)$ 关于样本点

(xi,yi) $(x_i,y_i)$ 的几何间隔为

r i = y i (w \cdot x i ∥ w ∥ + b ∥ w ∥)

$r_i=y_i(\frac{w\cdot x_i}{\begin{Vmatrix}w\end{Vmatrix}}+\frac b{\begin{Vmatrix}w\end{Vmatrix}})$ 定义超平面

(w,b) $(w,b)$ 关于训练数据

T $T$ 的函数间隔为超平面

(w,b) $(w,b)$ 关于

T $T$ 中所有样本点的函数间隔的最小值

r = m i n r i

$r=min \ r_i$

线性可分支持向量机

线性可分支持向量机学习算法-最大间隔法
输入：线性可分训练数据集 $T=\lbrace (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\rbrace$ ,其中， $x_i \in \mathcal{X}=R_N,y_i\in \mathcal{Y}=\lbrace -1,+1 \rbrace,i=1,2,...,N;$
输出：最大间隔分离超平面和分类决策函数

构建约束最优化问题 $m i n w, b 1 2 ∥ w ∥ 2 s . t . y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N (1)$ $\mathop{min}_{w,b} \ \frac12 \begin{Vmatrix}w\end{Vmatrix}^2 \\ s.t. \ y_i(w\cdot x_i +b)-1 \ge 0,i=1,2,...,N \tag{1}$
求得最优解 $w^*,b^*$ .
由此得到分离超平面 $w * \cdot x + b * = 0$ $w^*\cdot x+b^*=0$
分类决策函数为 $f (x) = s i g n (w * \cdot x + b *)$ $f(x)=sign(w^*\cdot x+b^*)$

线性可分支持向量机的对偶算法
对于上式 $(1)$ 中的不等式约束，引入拉格朗日乘子 $\alpha_i \ge 0$ ，定义拉格朗日函数：

L (w, b, α) = 1 2 ∥ w ∥ 2 - \sum i = 1 N α i y i (w \cdot x i + b) + \sum i = 1 N α i

$L(w,b,\alpha)=\frac 12\begin{Vmatrix}w\end{Vmatrix}^2-\sum_{i=1}^N\alpha_iy_i(w\cdot x_i+b)+\sum_{i=1}^N\alpha_i$ 这里，

α=(α1,α2,...,αN)T $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T$ 为拉格朗日乘子向量。根据拉格朗日对偶性，原始问题的对偶问题为极大极小问题

m a x α m i n w, b L (w, b, α)

$\mathop{max}_\alpha \ \mathop{min}_{w,b}\ L(w,b,\alpha)$ 求

minw,b L(w,b,α) $\mathop{min}_{w,b}\ L(w,b,\alpha)$ 将

L(w,b,α) $L(w,b,\alpha)$ 分别对

w,b $w,b$ 求偏导数并令其等于0.

\nabla w L (w, b . α) = w - \sum i = 1 N α i y i x i = 0

$\nabla_wL(w,b.\alpha)=w-\sum_{i=1}^N\alpha_iy_ix_i=0$

\nabla b L (w, b . α) = \sum i = 1 N α i y i = 0

$\nabla_bL(w,b.\alpha)=\sum_{i=1}^N\alpha_iy_i=0$ 得

w = \sum i = 1 N α i y i x i

$w=\sum_{i=1}^N\alpha_iy_ix_i$

∑Ni=1αiyi=0 $\sum_{i=1}^N\alpha_iy_i=0$ $将上式代入式中得到

m i n w, b L (w, b, α) = - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i

$\mathop{min}_{w,b}L(w,b,\alpha)=-\frac 12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$

求 $\mathop{min}_{w,b} L(w,b,\alpha)$ 对 $\alpha$ 的极大，可转化为如下的极小问题

m i n α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0 α i = 0, i = 1, 2, . . ., N (2)

$\mathop{min}_{\alpha}\ \ \frac 12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ s.t. \ \ \sum_{i=1}^N\alpha_iy_i=0 \\ \alpha_i=0,i=1,2,...,N \tag{2}$
解上述极小值问题可以得到

α $\alpha$ 的解为

α∗=(α∗1,α∗2,...,α∗N)T $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ ,从而求得

w * = \sum i = 1 N α * i y i x i b * = y j - \sum i = 1 N α * i y i (x i \cdot x j)

$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i \\ b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)$ 即可以求得分离超平面和决策函数。

线性支持向量机

线性支持向量机学习算法-最大软间隔法
假设训练数据线性不可分，对于除去训练数据集中存在特异点后剩余的样本集合线性可分的情况，即某些样本点不能满足函数间隔大于等于1的约束条件，可以对每个样本点 $(x_i,y_i)$ 引进一个松弛变量 $\xi\ge 0$ ,使得函数间隔加上松弛变量大于等于1，同时，对每个松弛变量 $\xi_i$ 支付一个代价 $\xi_i$ ,此时的优化问题变为

m i n w, b, ξ 1 2 ∥ w ∥ 2 + C \sum i = 1 N ξ i s . t y i (w \cdot x i + b) \geq 1 - ξ i, ξ i \geq 0, i = 1, 2, . . ., N (3)

$\mathop{min}_{w,b,\xi } \ \frac 12\begin{Vmatrix}w\end{Vmatrix}^2+C\sum_{i=1}^N\xi_i \\s.t \ \ y_i(w\cdot x_i+b)\ge 1-\xi_i \ , \ \xi_i\ge 0,i=1,2,...,N \tag{3}$ 这里

C>0 $C\gt 0$ 为惩罚参数，其值表示对误分类的惩罚程度。

线性支持向量机的对偶算法
式 $(3)$ 中的最优化问题的拉格朗日函数是

L (w, b, ξ, α, μ) = 1 2 ∥ w ∥ 2 + C \sum i = 1 N ξ i - \sum i = 1 N α i (y i (w \cdot x i + b) - 1 + ξ i) - \sum i = 1 N μ i ξ i

$L(w,b,\xi ,\alpha,\mu)=\frac 12\begin{Vmatrix}w\end{Vmatrix}^2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\alpha_i(y_i(w\cdot x_i +b)-1+\xi_i)-\sum_{i=1}^N\mu_i\xi_i$ 这里，

αi≥0, μi≥0 $\alpha_i \ge 0, \ \mu_i \ge 0$
对偶问题是拉格朗日函数的极大极小问题，先求

L(w,b,ξ,α,μ) $L(w,b,\xi ,\alpha,\mu)$ 对

w,b,ξ $w,b,\xi$ 的极小，由

\nabla w L (w, b, ξ, α, μ) = w - \sum i = 1 N α i y i x i = 0 \nabla b L (w, b, ξ, α, μ) = - \sum i = 1 N α i y i = 0 \nabla ξ i L (w, b, ξ, α, μ) = C - α i - μ i = 0

$\nabla_wL(w,b,\xi ,\alpha,\mu)=w-\sum_{i=1}^N\alpha_iy_ix_i=0 \\ \nabla_bL(w,b,\xi ,\alpha,\mu)=-\sum_{i=1}^N\alpha_iy_i=0 \\ \nabla_{\xi_i}L(w,b,\xi ,\alpha,\mu)=C-\alpha_i-\mu_i=0$ 得

w = \sum i = 1 N α i y i x i \sum i = 1 N α i y i = 0 C - α i - μ i = 0

$w=\sum_{i=1}^N\alpha_iy_ix_i \\ \sum_{i=1}^N\alpha_iy_i=0 \\ C-\alpha_i-\mu_i=0$ 将上述结果代入

minw,b,ξ L(w,b,ξ,α,μ)=−12∑Ni=1∑Nj=1αiαjyiyj(xi⋅xj)+∑Ni=1αi $\mathop{min}_{w,b,\xi} \ L(w,b,\xi ,\alpha,\mu)=-\frac 12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$ 再对

minw,b,ξ L(w,b,ξ,α,μ) $\mathop{min}_{w,b,\xi} \ L(w,b,\xi ,\alpha,\mu)$ 求

α $\alpha$ 的极大，转换为对

α $\alpha$ 求

minw,b,ξ −L(w,b,ξ,α,μ) $\mathop{min}_{w,b,\xi} \ -L(w,b,\xi ,\alpha,\mu)$ 的极小值,整理可得对偶问题

m i n α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., N

$\mathop{min}_\alpha \ \frac 12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ s.t. \ \ \sum_{i=1}^N\alpha_iy_i=0 \\ 0\le \alpha_i \le C,i=1,2,...,N$ 至此可依次解得

α * = (α * 1, α * 2, . . ., α * N) T w * = \sum i = 1 N α * i y i x i b * = y j - \sum i = 1 N y i α * i (x i \cdot x j)

$\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T \\ w^*=\sum_{i=1}^N\alpha_i^*y_ix_i \\ b^*=y_j-\sum_{i=1}^Ny_i\alpha_i^*(x_i\cdot x_j)$
从而可以求得分类超平面和决策函数。

非线性支持向量机

非线性支持向量机学习算法
输入：训练数据集 $T=\lbrace (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \rbrace$ ,其中 $x_i \in \mathcal{X}=R^N,y_i \in \mathcal{Y}={-1,+1},i=1,2,...,N;$
输出：分类决策函数。

选择适当的核函数 $K(x,z)$ 和适当的参数 $C$ ,构造并求解最优化问题 $m i n α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j K (x i, x j) - \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., N$ $\mathop{min}_\alpha \ \frac 12 \sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i, x_j)-\sum_{i=1}^N\alpha_i \\ s.t. \ \sum_{i=1}^N\alpha_iy_i=0 \\ 0\le \alpha_i \le C,i=1,2,...,N$ 求得最优解 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ .
选择 $\alpha^*$ 的一个正分量 $0\lt \alpha_j^* \lt C$ ,计算 $b * = y j - \sum i = 1 N y i α * i (x i \cdot x j)$ $b^*=y_j-\sum_{i=1}^Ny_i\alpha_i^*(x_i\cdot x_j)$
构造决策函数： $f (x) = s i g n (\sum i = 1 N α * i y i K (x \cdot x i) + b *)$ $f(x)=sign(\sum_{i=1}^N\alpha_i^*y_iK(x\cdot x_i)+b^*)$
两层的SVM结构图