Andrew Ng - SVM【3】最后的面纱-核函数&SMO

最新推荐文章于 2020-07-06 23:17:03 发布

原创最新推荐文章于 2020-07-06 23:17:03 发布 · 1.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#smo #svm #核函数 #吴恩达

Machine Learning 同时被 2 个专栏收录

5 篇文章

订阅专栏

Algorithms

4 篇文章

订阅专栏

最后的面纱-核函数&SMO

1. 核函数

在Ng之前将线性回归的篇幅中，有一个预测房价的问题，输入 $x$ 是房子的面积，假设我们用三次函数拟合数据，这是一个非线性的问题，用 $\phi$ 表示特征映射，会得到：

ϕ (x) = ⎡ ⎣ ⎢ x x 2 x 3 ⎤ ⎦ ⎥

$\phi(x)=\begin{bmatrix} x \\ x^2 \\ x^3 \\ \end{bmatrix}$

如果我们使用对

ϕ(x) $\phi(x)$ 的学习代替对

x $x$ 的学习（为了做到这一点，我们将使用

ϕ(x) $\phi(x)$ 换掉前边算法中的

x $x$ ），回看一下我们之前的几个公式，凡是

x $x$ 出现的地方都是内积

⟨x,z⟩ $\langle x,z\rangle$ 的形式，也就意味着所有的这种形式我们都可以用

⟨ϕ(x),ϕ(z)⟩ $\langle \phi(x),\phi(z)\rangle$ 代替，即定义：

K(x,z)=ϕ(x)Tϕ(z) $K(x,z)=\phi(x)^T\phi(z)$ .

这样我们的问题又回到了线性！将高维映射到了低维。但是同时又有一个问题出现了，在计算内积

⟨ϕ(x),ϕ(z)⟩ $\langle \phi(x),\phi(z)\rangle$ 的时候，可能

ϕ(x) $\phi(x)$ 本身的维度会非常高，计算代价变得非常之大。当然，我们必须要让这种情况必须不是问题，我们甚至根本不用明确的写出

ϕ(x) $\phi(x)$ 。Your eyes please follow me，假设

x,z∈R $x,z\in\mathbb{R}$ ，

K(x,z)=(xTz)2 $K(x,z)=(x^Tz)^2$ ，即：

K (x, z) = (\sum i = 1 n x i z i) ⎛ ⎝ \sum j = 1 n x j z j ⎞ ⎠ = \sum i = 1 n \sum j = 1 n x i x j z i z j = \sum i = 1 n \sum j = 1 n (x i x j) (z i z j)

$\begin{aligned} K(x,z)=& \left(\sum_{i=1}^nx_iz_i\right)\left(\sum_{j=1}^nx_jz_j\right) \\ & =\sum_{i=1}^n\sum_{j=1}^nx_ix_jz_iz_j\\ & =\sum_{i=1}^n\sum_{j=1}^n(x_ix_j)(z_iz_j) \end{aligned}$

注意到当

n $n$ =3时：

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 2 x 3 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\phi(x)=\begin{bmatrix} x_1x_1 \\ x_2x_2 \\ x_3x_3 \\ x_1x_1 \\ x_2x_2 \\ x_3x_3 \\ x_1x_1 \\ x_2x_2 \\ x_3x_3 \\ \end{bmatrix}$

计算

ϕ(x)Tϕ(z) $\phi(x)^T\phi(z)$ 的时间复杂度以下就飙升到了

O(n2) $O(n^2)$ ，但是计算

(xTz)2 $(x^Tz)^2$ 的时间复杂度却是

n $n$ （非常之牛逼）。再看一组爽一下：

K (x, z) = (x T z + c) 2 = \sum i = 1 n \sum j = 1 n (x i x j) (z i z j) + \sum i = 1 n (2 c - - \sqrt x i) (2 c - - \sqrt z i) + c 2

$\begin{aligned} K(x,z)=& (x^Tz+c)^2 \\ & =\sum_{i=1}^n\sum_{j=1}^n(x_ix_j)(z_iz_j)+\sum_{i=1}^n(\sqrt{2c}x_i)(\sqrt{2c}z_i)+c^2 \end{aligned}$

注意到当

n $n$ =3时：

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 2 x 3 x 3 2 c - - \sqrt x 1 2 c - - \sqrt x 2 2 c - - \sqrt x 3 c ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\phi(x)=\begin{bmatrix} x_1x_1 \\ x_2x_2 \\ x_3x_3 \\ x_1x_1 \\ x_2x_2 \\ x_3x_3 \\ x_1x_1 \\ x_2x_2 \\ x_3x_3 \\ \sqrt{2c}x_1 \\ \sqrt{2c}x_2 \\ \sqrt{2c}x_3 \\ c \end{bmatrix}$

我们可以观察到

ϕ(x) $\phi(x)$ 中即包含了一次项又包含了二次项，而c的作用则是它可以很方便的控制一次项与二次项之间的相对权重。而我们又上演了精彩一幕，只用

O(n) $O(n)$ 的时间复杂度（计算

xTz+c $x^Tz+c$ )解决一个时间复杂度为

O(n2) $O(n^2)$ 的问题（

⟨ϕ(x),ϕ(z)⟩ $\langle \phi(x),\phi(z)\rangle$ ）。而上一核函数更一般的形式如下：

K(x,z)=(xTz+c)d $K(x,z)=(x^Tz+c)^d$

这对应着

(n+dd) $\begin{pmatrix} n+d\\ d \\ \end{pmatrix}$ （

在n+d个特征单项式中选择d个特征单项式? $\color{red}{在n+d个特征单项式中选择d个特征单项式?}$ ），其数量级应该是

(n+d)d $(n+d)^d$ 的随d呈指数上升，所以

ϕ $\phi$ 将是一个维度很高的特征向量。但是！你依然可以在

O(n) $O(n)$ 的时间复杂度将其搞定！
所以说核函数的威力很大。那么当遇到一个机器学习问题的时候，我们应该怎样选择核函数呢？给定一组属性

x $x$ 并将其转化为一个特征向量

ϕ(x) $\phi(x)$ ；另一组属性

z $z$ 并将其转化为一个特征向量

ϕ(z) $\phi(z)$ 。所以核函数做的事情就是计算

⟨ϕ(x),ϕ(z)⟩ $\langle \phi(x),\phi(z)\rangle$ 。我们说如果

x $x$ 和

z $z$ 非常相似，那么

ϕ(x) $\phi(x)$ 和

ϕ(z) $\phi(z)$ 大概会指向相同的方向，所以内积会非常大；而如果

x $x$ 和

z $z$ 差别较大，那么

ϕ(x) $\phi(x)$ 和

ϕ(z) $\phi(z)$ 大概会指向相反的方向，所以内积会非常小。这种直观的理解和表述可能不是非常严谨，但在实际中却能发挥很好的效用。所以说当我们遇到一个新的机器学习问题，如果我们希望学习算法认为

x $x$ 和

z $z$ 是相似的，那么我们可以使

K(x,z) $K(x,z)$ 取一个较大的值；如果我们希望学习算法认为

x $x$ 和

z $z$ 不一样，那么我们可以使

K(x,z) $K(x,z)$ 取一个较小的值（注意：

K(x,z) $K(x,z)$ 是内积，大于0)。
所以，当我们需要度量

x $x$ 和

z $z$ 的相似度的时候，核函数将会是一个很好的方式。对于下边的核函数：

K(x,z)=exp(−||x−z||22σ2) $K(x,z)=exp(-\frac{||x-z||^2}{2\sigma^2})$
当

x $x$ 和

z $z$ 相近的时候函数值接近于1；而当

x $x$ 和

z $z$ 相差很远的时候函数值接近于0（这个核函数的特征映射

ϕ $\phi$ 是无线维的）。实际上还存在一个问题，我们怎么确定一个核函数是一个有效的核函数呢？答曰：

∃ϕs.t.K(x,z)=⟨ϕ(x),ϕ(z)⟩ $\exists\phi\quad s.t.\quad K(x,z)=\langle\phi(x),\phi(z)\rangle$
我们通常假设

K $\color{red}{K}$ 是一个合理的

核函数 $\color{red}{核函数}$ ，考虑对于一个有限集

S={x(1),...,x(m)} $S=\{x^{(1)},...,x^{(m)}\}$ ，再定义一个

m∗m $m*m$ 的

矩阵K $\color{blue}{矩阵K}$ 使得

Ki,j=K(x(i),x(j)) $\color{blue}{K_{i,j}}=\color{red}{K}(x^{(i)},x^{(j)})$ ，将

K $\color{blue}{K}$ 叫做核矩阵。则有：

Ki,j=K(x(i),x(j))=ϕ(x(i))Tϕ(x(j))=ϕ(x(j))Tϕ(x(i))=K(x(j),x(i))=Kj,i $\color{blue}{K_{i,j}}=\color{red}{K}(x^{(i)},x^{(j)})=\phi(x^{(i)})^T\phi(x^{(j)})=\phi(x^{(j)})^T\phi(x^{(i)})=\color{red}{K}(x^{(j)},x^{(i)})=\color{blue}{K_{j,i}}$
所以

K $\color{blue}{K}$ 是一个对称矩阵。用

ϕk(x) $\phi_k(x)$ 表示

ϕ(x) $\phi(x)$ 的第

k $k$ 个元素，这时对于任意一个

m $m$ 维向量

z $z$ ：

z T K z = \sum i = 1 m \sum j = 1 m z i K i j z j = \sum i = 1 m \sum j = 1 m z i ϕ (x (i)) T ϕ (x (j)) z j = \sum i = 1 m \sum j = 1 m z i \sum k = 1 m ϕ k (x (i)) ϕ k (x (j)) z j = \sum k = 1 m \sum i = 1 m \sum j = 1 m z i ϕ k (x (i)) ϕ k (x (j)) z j = \sum k = 1 m (\sum i = 1 m z i ϕ k (x (i))) 2 \geq 0.

$\begin{aligned} z^TKz&= \sum_{i=1}^m\sum_{j=1}^m z_iK_{ij}z_j\\ & =\sum_{i=1}^m\sum_{j=1}^m z_i\phi(x^{(i)})^T\phi(x^{(j)})z_j\\ & =\sum_{i=1}^m\sum_{j=1}^m z_i\sum_{k=1}^m\phi_k(x^{(i)})\phi_k(x^{(j)})z_j\\ & =\sum_{k=1}^m\sum_{i=1}^m\sum_{j=1}^m z_i\phi_k(x^{(i)})\phi_k(x^{(j)})z_j\\ & =\sum_{k=1}^m\left(\sum_{i=1}^m z_i\phi_k(x^{(i)})\right)^2\\ & \geq 0. \end{aligned}$

因为

zTKz≥0 $z^TKz\geq0$ ，说明

K $K$ 是一个半正定的矩阵（

K≥0 $K\geq0$ ）。因此如果

K $K$ 是一个有效的核（因为这个名字是由Mercer提出来的，历史原因，我们也将有效核称为Mercer核），则对应的和举证应该是半正定的（注意反之亦成立）。这就给我们提供了一种测试核函数是否合法的方式，

K(x,z) $K(x,z)$ 是一个有效核的充要条件是，对于任意

x(1),...x(m),(m<∞) ${x^{(1)},...x^{(m)}},(m<\infty)$ ，核矩阵都是半正定的。到这里，相信我们对核函数都有了一个比较清晰的认识，有内积

⟨x,z⟩ $\langle x,z\rangle$ 的地方直接换成

K(x,z) $K(x,z)$ ，使本来在低维线性不可分的问题转化到高维用超平面划分，但计算量还是维持在很高效的范围内，很爽！不过，还有个问题，假如数据在高维依然是不可分的呢？让我们引入下一话题：

l1norm $l1 norm$ 软边界

SVM $SVM$ 。

2. l1 norm软边界SVM

直奔主题，先看两张图：

左图是当界限比较明显的时候比较合理的分割超平面，而作为对比，当有一个异常点出现的时候，按照我们前面的分析和处理方法，将会得到和右图实线差不多的一个分割超平面，这个就有点飘了。所以为了让分类器对有问题的点不是那么敏感，我们把优化问题改写成如下的形式（用

l1范式−−什么是l1范式？有什么用呢？ $l_1范式--\color{red}{什么是l_1范式？有什么用呢？}$ ）：

m i n γ, ω, b 1 2 | | ω | | 2 + C \sum i = 1 m ξ i s . t . y (i) (ω T x (i) + b) \geq 1 - ξ i, i = 1, . . ., m ξ i \geq 0, i = 1, . . ., m .

$\begin{aligned} &min_{\gamma,\omega,b}\quad\frac{1}{2}||\omega||^2 +C\sum_{i=1}^m\xi_i\\ & s.t.\quad y^{(i)}(\omega^Tx^{(i)}+b)\geq1-\xi_i,\quad i=1,...,m\\ & \quad \qquad \xi_i\geq0,\ \ i=1,...,m. \end{aligned}$

这实际上市允许求解超平面时函数间隔可以小于1，并且对于那些函数间隔小于1的点（

1−ξi $1-\xi_i$ ）我们将会施以小小的惩罚

Cξi $C\xi_i$ 。所以

C $C$ 在这里其实扮演了一个比较重要的角色，即控制 “(1)使

||ω||2 $||\omega||^2$ 尽量的小和(2)保证尽可能多的点的函数间隔最少是1” 这两个我们需要兼顾的目标之间的权重关系。然后，像之前一样，我们将式子写成拉格朗日函数的形式：

L (ω, b, ξ, α, r) = 1 2 ω T ω + C \sum i = 1 m ξ i - \sum i = 1 m α i [y (i) ((ω) T x (i) + b) - 1 + ξ i] - \sum i = 1 m r i ξ i

$\mathcal{L}(\omega,b,\xi,\alpha,r)=\frac{1}{2}\omega^T\omega+C\sum_{i=1}^m\xi_i-\sum_{i=1}^m\alpha_i[y^{(i)}((\omega)^Tx^{(i)}+b)-1+\xi_i]-\sum_{i=1}^mr_i\xi_i$

然后可以求出其对偶形式为：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α (i) α (j) ⟨ x (i), x (j) ⟩ . s . t . 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y (i) = 0

$\begin{aligned} & \max_\alpha\quad W(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i,j=1}^my^{(i)}y^{(j)}\alpha^{(i)}\alpha^{(j)}\langle x^{(i)},x^{(j)}\rangle. \\ & \ s.t.\quad 0\leq\alpha_i\leq C,\quad i=1,...,m\\ & \ \ \ \qquad\sum_{i=1}^m\alpha_iy^{(i)}=0 \end{aligned}$

而对应于对偶形式，其KKT条件为：

α i α i 0 < α i = 0 \Rightarrow y (i) (ω T x (i) + b) \geq 1 = C \Rightarrow y (i) (ω T x (i) + b) \leq 1 < C \Rightarrow y (i) (ω T x (i) + b) = 1

$\begin{aligned} \alpha_i&=0\quad\ \Rightarrow\quad y^{(i)}(\omega^Tx^{(i)}+b)\geq1\\ \alpha_i&=C\quad\Rightarrow\quad y^{(i)}(\omega^Tx^{(i)}+b)\leq1\\ 0<\alpha_i&<C\quad\Rightarrow\quad y^{(i)}(\omega^Tx^{(i)}+b)=1\\ \end{aligned}$

话说，该假设的也假设了，该分析的也分析了，该优化的也优化了，万事俱备，只差一步，最后对这个对偶问题的算法实现！请看下节：SMO！

3. SMO

I. 坐标上升法
这是一个引子，这明显是一个引子。好吧我把它说出来了。
若有一个没有约束条件的优化问题如下：

max α W (α 1, α 2, . . ., α m)

$\max_\alpha W(\alpha_1,\alpha_2,...,\alpha_m)$

坐标上升法的优化方法是：

Loopuntilconvergence:{Fori=1,...,m, {αi:=arg maxαi^ W(α1,...,αi−1,αi^,αi+1,...,αm).}}

$\begin{aligned} &Loop\quad until \quad convergence: \quad\{\\ &\qquad For\quad i=1,...,m,\ \{\\ &\qquad\qquad \alpha_i:=arg\ max_\hat{\alpha_i}\ W(\alpha_1,...,\alpha_{i-1},\hat{\alpha_i},\alpha_{i+1},...,\alpha_m).\\ &\qquad \}\\ &\} \end{aligned}$

坐标上升法保持除

αi $\alpha_i$ 之外的所有参数固定，然后相对于

αi $\alpha_i$ 求函数最大值。我们用一张图来说明一下这个算法：

这里写图片描述

从起点开始，坐标上升法每次都会取一个相对最高（图中红点），最后让问题收敛到全局最优（

话说如果没有全局最优或凹凹凸凸的是不是也能收敛到全局最优？ $\color{red}{话说如果没有全局最优或凹凹凸凸的是不是也能收敛到全局最优？}$ ）。当然你会问我，固定其他参数后针对一个参数求最值怎么求？快吗？

f=−x2+y2+z2 $f=-x^2+y^2+z^2$ ，固定

y,z $y,z$ ，

argmaxxf=0 $argmax_xf=0$ ，答案是快，要快很多。

II. $SMO$ （ $sequential\ minimal\ optimization$ -顺序最小优化算法）
拾起我们在SVM中要优化解决的问题：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α (i) α (j) ⟨ x (i), x (j) ⟩ . s . t . 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y (i) = 0

αi $\alpha_i$ ，我们是否也能固定除某一

αi $\alpha_i$ 以外的其他参数，从而通过迭代收敛求得全局最优？由于种种原因，答案是否定的。好吧，是因为我们有一个约束条件使得：

α1=−y(1)∑mi=2αiy(i) $\alpha_1=-y^{(1)}\sum_{i=2}^m\alpha_iy^{(i)}$

当其他的值被假设固定以后，其实

α1 $\alpha_1$ 的值也就固定了，没法优化了。没办法了？

No $No$ ！为了满足那些约束条件，我们同时对两个参数进行更新：

L o o p u n t i l c o n v e r g e n c e : {1. 根 据 一 些 启 发 式 规 则 选 择 α i, α j (启 发 式 规 则 通 常 指 一 些 经 验 法 则) 2. 固 定 除 α i, α j 以 外 的 其 他 参 数 求 满 足 所 有 约 束 条 件 的 W 的 最 优 值}

$\begin{aligned} &Loop\quad until \quad convergence: \quad\{\\ &\qquad 1. 根据一些启发式规则选择\alpha_i,\alpha_j(启发式规则通常指一些经验法则)\\ &\qquad 2. 固定除\alpha_i,\alpha_j以外的其他参数求满足所有约束条件的W的最优值\\ &\} \end{aligned}$

有一点要注意的是，这里的收敛条件是什么呢？如果你还记得的话，我们上边其实说过：KKT。那么通常来说第二步是比较关键的，怎样在满足所有约束条件的情况下能相对于

αi,αj $\alpha_i,\alpha_j$ 取得

W $W$ 最优呢？假设我们选取的参数是

α1,α2 $\alpha_1,\alpha_2$ ，那么有：

α 1 y (1) + α 2 y (2) = - \sum i = 3 m α i y (i) = ζ （ 常 数 ）

$\alpha_1y^{(1)}+\alpha_2y^{(2)}=-\sum_{i=3}^m\alpha_iy^{(i)}=\zeta\color{red}{（常数）}$

所以能得到：

α 1 = (ζ - α 2 y (2)) y (1)

$\alpha_1=(\zeta-\alpha_2y^{(2)})y^{(1)}$

关注一下问题的约束条件：

(1) . 0 \leq α i \leq C, i = 1, . . ., m (2) . \sum i = 1 m α i y (i) = 0

$(1).\ 0\leq\alpha_i\leq C,\quad i=1,...,m \quad \quad(2).\ \sum_{i=1}^m\alpha_iy^{(i)}=0$

下面的图片应该能说明一些问题：

这里写图片描述

将

W(α) $W(\alpha)$ 改写一下：

W (α 1, α 2, . . ., α m) = W ((ζ - α 2 y (2)) y (1), α 2, . . ., α m)

$W(\alpha_1,\alpha_2,...,\alpha_m)=W((\zeta-\alpha_2y^{(2)})y^{(1)},\alpha_2,...,\alpha_m)$

对比原式

W(α) $W(\alpha)$ ，再把

α3,...,αm $\alpha_3,...,\alpha_m$ 都是常数考量进去，最后我们基本上会得到这样的式子，存在一些合适的

A,B,C $A,B,C$ 使得

W(α2)=Aα22+Bα2+C $W(\alpha_2)=A\alpha_2^2+B\alpha_2+C$ ，那么我们可以轻松的令二次函数导数为0求得

α2 $\alpha_2$ 相应的值为

αnew,unclipped2 $\alpha_2^{new,unclipped}$ （

unclipped $unclipped$ 的意思是说不用考虑约束条件）。所以我们得到

α2 $\alpha_2$ 的更新式子为：

α n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ H α n e w, u n c l i p p e d 2 L α n e w, u n c l i p p e d 2 >H L \leq α n e w, u n c l i p p e d 2 \leq H α n e w, u n c l i p p e d 2 <L

$\alpha_2^{new}= \begin{equation}\begin{cases} H &\mbox{$\alpha_2^{new,unclipped}$>H}\\ \alpha_2^{new,unclipped} &L\leq\mbox{$\alpha_2^{new,unclipped}\leq$ H}\\ L &\mbox{$\alpha_2^{new,unclipped}$<L}\\ \end{cases} \end{equation}$

当然得到了

αnew2 $\alpha_2^{new}$ 我们也就得到了

αnew1 $\alpha_1^{new}$ 。至此，我们的

SVM $SVM$ 学习已经到了尾声，除了一小部分未解决的问题（(1)关于选取

αi $\alpha_i$ 和

αj $\alpha_j$ 的启发式规则；(2)如何计算参数b）,这一部分笔者将会后续做一个补充，但如果有兴趣大家可以自己试着解决一下。