【机器学习】5.支持向量机_支持向量机fx的含义-优快云博客

本文深入探讨了支持向量机(SVM)的核心概念，包括间隔、支持向量、对偶问题、核函数、软间隔及正则化。通过数学推导，详细解释了如何寻找最优分类超平面，并介绍了SVM在回归任务中的应用。此外，文章还涵盖了核方法在优化问题中的作用。

文章目录

间隔与支持向量
对偶问题
核函数
软间隔和正则化
支持向量机回归
核方法

间隔与支持向量

给定数据集D={ $\mathop (x_1,y_1),(x_2,y_2),...,(x_m,y_m)$ }, $\mathop y_i\in{[-1,+1]}$ 训练的基本思想就是基于训练集D在样本空间找到一个划分超平面。
在这里插入图片描述在样本空间中，划分超平面可通过如下线性方程来描述
$W^Tx+b = 0$
其中 $\mathop w = (w_1,w_2,...,w_d)$ 为法向量，决定超平面的方向，b为位移量，决定超平面与原点治安的距离，记为（w，b）
样本空间中任意点x到超平面（w，b）的距离为：
$\frac{|W^Tx+b|}{||w||}$
若将w，b等比例增大，例如2w，2b，超平面未改变，但函数间隔缺改变了，所以除以||w||。

若超平面划分正确，则有:
$\begin{cases} w^Tx_i+b>0, & y_i =+1 \\ w^Tx_i+b<0, & y_i =-1 \end{cases}$
令：
$\begin{cases} w^Tx_i+b \geq 1, & y_i =+1 \\ w^Tx_i+b \leq -1, & y_i =-1 \end{cases}$
若训练样本使 $\mathop w^Tx_i +b=\pm1$ ,则被称为支持向量，两个异类支持向量到超平面的距离之和成为间隔。
$\frac{2}{||w||}$
欲找到最大化间隔的划分超平面，即使r最大
$max_{w,b}\frac{2}{||w||}_{s.t. y_i(w_Tx_i+b\geq 1)}$

即：
$min_{w,b}0.5||w||^2_{s.t. y_i(w_Tx_i+b\geq 1)}$

对偶问题

根据 $\mathop min_{w,b}0.5||w||^2_{s.t. y_i(w_Tx_i+b\geq 1)}$
　　 $\mathop f(x) = w^Tx+b$ 　　　　　　求解得到最大间隔划分超平面
使用拉格朗日乘子法
$L(w,b,\alpha) = \frac{1}{2}||w||^2 + \sum_{i=1}^m \alpha_i(1-y_i(w^T+b))$
如此，问题就变成了:
$max_{\alpha} min_{w,b} L(w,b,\alpha)$

对L(w,b,α)的w，b求偏导并等于0.
$\frac{\sigma L}{\sigma w} = w-\sum_{i=1}^m \alpha_iy_ix_i=0$

$\frac{\sigma L}{\sigma b} = \sum_{i=1}^m \alpha_ig_i = 0$

代入原式中
$L(w,b,\alpha) = \frac{1}{2}(\sum_{i=1}^m \alpha_iy_ix_i)^2 - \sum_{i=1}^m \alpha_i(1-y_i(\sum_{i=1}^m\alpha_iy_ix_i * x+b)) =\sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_jy_iy_jx_ix_j$

即
$max_\alpha L(w,b,\alpha)_{s.t. \begin{cases}\sum_{i=1}^m \alpha_iy_i=0 \\ \alpha \geq 0 \end{cases}}$

${max_\alpha \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_jy_iy_jx_ix_j }_{s.t. \begin{cases} \alpha \geq 0 \\ \sum_{i=1}^m \alpha_iy_i=0 \end{cases}}$

求解
$w^Tx +b = \sum_{i=1}^m \alpha_iy_ix_i^Tx_i +b$

核函数

在原始样本空间内也许不存在一个能正确划分两类样本的超平面，这是，我们可以将样本从原始空间映射到一个更高维的特征空间。
令 $\mathop \Phi(x)$ 表示将x映射后的特征向量，则超平面为：
$f(x)=w^T\Phi(x) +b$
对应有
${max_\alpha \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_jy_iy_j（\Phi(x_i)*\Phi(x_j)）}_{s.t. \begin{cases} \alpha \geq 0 \\ \sum_{i=1}^m \alpha_iy_i=0 \end{cases}}$
因为 $\mathop \Phi(x_i)*\Phi(x_j)$ 难以计算，所以设想一个函数k
$K(x_i,x_j) = <\Phi(x_i),\Phi(x_j)> = \Phi(x_i)*\Phi(x_j)$
我们称K<·,·>为核函数
令x为输入空间，K<·,·>是定义在xxx上的对称函数，当且仅当对于任意数据 $\mathop D=[X_1,X_2,..,x_m]$ ,核矩阵k总是半正定的，k使核函数。

$\begin{bmatrix} k(x_1,x_1) & ... & k(x_1,x_j) & ... &k(x_1,x_m) \\..& ...&..&...&.. \\ k(x_i,x_1) &...&k(x_i,x_j)&...& k(x_i,x_m) \\..& ...&..&...&.. \\ k(x_m,x_1)&...&k(x_m,x_j)&...&k(x_m,x_m) \end{bmatrix}$
常用核函数
$k(x_i,y_i)=x_iy_i$

$k(x_i,y_i)=(x_iy_i)^d$

$k(x_i,y_i)=exp(-\frac{||x_i-x_j||^2}{2\sigma^2})$

$. . . . . . . .$

软间隔和正则化

软间隔是允许某些样本不满足条件
$y_i(w^Tx_i + b) \geq 1$
于是优化目标可以写成
$min_{w,b} \frac{1}{2}||w||^2 + c \sum_{i=1}^m\tau_{0/1}(y_i(w^Tx_i+b)-1)$
其中C是大于0的常熟， $\mathop \tau_{0/1}$ 是0/1的损失函数
$\begin{cases}1 , &&\text{if z<0} \\ 0,&& \text{otherwise}\end{cases}$
当C为无穷大时，则等价为硬间隔， $\mathop \tau_{0/1}$ 的数学性质不好，所以使用代替函数，常见有：
hinge损失： $\mathop \iota_{hinge}(z) = max(0,1-z)$
指数损失： $\mathop \iota_{exp}(z) = exp(-z)$
对率损失： $\mathop \iota_{log}(z) = log(1+exp(-z))$
使用hinge损失，可将原始改为：
$min_{w,b} \frac{1}{2}||w||^2 + c \sum_{i=1}^mmax(0,1-y_i(w^Tx_i+b))$

引入松弛变量 $\mathop \xi_i\geq0$
$min_{w,b,\xi} 1/2||w||^2 + c\sum_{i=1}^m\xi_i$

$y_i(w^Tx_i+b)\geq 1-\xi_i$

$\xi_i\geq0$

拉格朗日乘子法
$L(w,b,\alpha,\xi,\mu) = 1/2 ||w||^2+c\sum_{i=1}^m\xi_i+\sum_{i=1}^m\alpha_i(1-\xi_i-y_i(w^Tx_i+b))-\sum_{i=1}^m\mu_i\xi_i$
对 $\mathop w,b,\xi$ 求偏导。
$\sum_{i=1}^m\alpha_iy_ix_i$

$\sum_{i=1}^m\alpha_iy_i$

$c=\alpha_i+\mu_i$

代入：
$max_{\alpha_i} \sum_{i=1}^m\alpha_i - 1/2\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_ix_ix_j$

$\sum_{i=1}^m\alpha_iy_i=0$

$0\leq\alpha_i\leq c$

支持向量机回归

支持向量机回归能容忍 $\mathop f(x) 与 y$ 之间有 $\mathop \xi$ 的偏差，这就相当于以 $\mathop f(x)$ 为中心，构建了一个宽度为 $\mathop2\xi$ 的间隔带，只有训练样本落入间隔带，则认为是正确预测。
$min_{w,b}1/2||w||^2 + c\sum_{i=1}^m\zeta_e(f(x_i)-y_i)$
其中c为正则化常数，
$\zeta_e(z)=\begin{cases} 0 , & if |z|\leq \epsilon \\ |z|-\epsilon , & otherwise\end{cases}$
引入松弛变量，可改写为:
$min_{w,b,\xi_i,\hat\xi_i} 1/2||w||^2 + c\sum_{i=1}^m(\xi_i+\hat\xi_i)$

$f(x_i)-y_i \leq\epsilon_i+\xi_i$

$y_i-f(x_i)\leq\epsilon_i+\hat\xi_i$

$\xi_i\geq0 ,\hat\xi_i\geq0$
引入拉格朗日乘子
$L(w,b,\alpha,\hat\alpha,\xi,\hat\xi,\mu,\hat\mu) = 1/2||w||^2+c\sum_{i=1}^m(\xi+\hat\xi)-\sum_{i=1}^m\mu_i\xi_i-\sum_{i=1}^m\hat\mu_i\hat\xi_i+\sum_{i=1}^m\alpha_i(f(x_i)-y_i-\epsilon-\epsilon_i)+\sum_{i=1}^m\hat\alpha_i(y_i-f(s_i)-\epsilon-\hat\xi_i)$

对 $\mathop w,b,\xi_i,\hat\xi_i$ 求偏导为零
$w=\sum_{i=1}^m(\hat\alpha_i-\alpha_i)x_i$

$\sum_{i=1}^m(\hat\alpha_i-\alpha_i)$

$\alpha_i +\mu_i=\hat\alpha_i+\hat\mu_i$

代入上述 $\mathop L(w,b,\alpha,\hat\alpha,\xi,\hat\xi,\mu,\hat\mu)$ 中：

$max_{\alpha,\hat\alpha}\sum_{i=1}^m(\hat\alpha_i-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)-1/2\sum_{i=1}^m\sum_{j=1}^m(\hat\alpha_i-\alpha)(\hat\alpha_j-\alpha)x_ix_j$

$\sum_{i=1}^m(\hat\alpha_i-\alpha_i)=0$

$0\leq(\alpha_i,\hat\alpha_i)\leq c$

核方法

定理：令H为核函数k对用的再生和希尔伯特空间，||h||_H表示H空间中关于h的范数，对于任意单调递增函数 $\mathop \Omega:[0,\infty] \to R$ 和任意非负损失函数 $\mathop \vartheta:R^m \to [0,\infty]$ ，优化问题
$min_{h\in H}F(h)=\Omega(||h||_H) + \vartheta(h(x_1),h(x_2),...,h(x_m))$