支持向量机的理论推导
n n n维空间有 m m m个样本点 X = x 1 , x 2 , . . . , x m X={x_1,x_2,...,x_m} X=x1,x2,...,xm, 对应的标签 y ∈ { 1 , − 1 } y \in \{1, -1\} y∈{1,−1}
下图为线性可分的样本:可以用
n
−
1
n-1
n−1维超平面来分开
n
n
n维空间的样本,将其分为两个类,即为线性可分
超平面: f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
当 f ( x ) f(x) f(x) 等于0的时候, x x x便是位于超平面上的点,而 f ( x ) f(x) f(x)大于0的点对应 y = 1 y=1 y=1 的数据点, f ( x ) f(x) f(x)小于0的点对应 y = − 1 y=-1 y=−1的点,如下图所示:
接下来的问题是,如何确定这个超平面呢?从直观上而言,这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以,得寻找有着最大间隔的超平面。
函数间隔:
γ
^
=
y
(
w
T
x
+
b
)
\hat \gamma = y(w^Tx+b)
γ^=y(wTx+b)
如果函数间隔中的 w w w和 b b b成比例变化,则函数间隔也成比例变化,但超平面却没有变,所以只有函数间隔是不够的
几何间隔:
假定对于一个点
x
x
x,令其垂直投影到超平面上的对应点为$ x_0$ ,$w
是
垂
直
于
超
平
面
的
一
个
向
量
,
是垂直于超平面的一个向量,
是垂直于超平面的一个向量,\gamma
为
样
本
为样本
为样本x$到超平面的距离,如下图所示:
根据平面几何知识,有
x
=
x
0
+
γ
w
∣
∣
w
∣
∣
x=x_0+\gamma \frac {w}{||w||}
x=x0+γ∣∣w∣∣w
因为 x 0 x_0 x0是超平面上的点,所以 w T x 0 + b = 0 w^Tx_0+b=0 wTx0+b=0
x
=
x
0
+
γ
w
∣
∣
w
∣
∣
x=x_0+\gamma \frac {w}{||w||}
x=x0+γ∣∣w∣∣w
w
T
x
=
w
T
x
0
+
w
T
γ
w
∣
∣
w
∣
∣
w^Tx=w^Tx_0+w^T\gamma \frac {w}{||w||}
wTx=wTx0+wTγ∣∣w∣∣w
w
T
x
=
−
b
+
γ
w
T
w
∣
∣
w
∣
∣
w^Tx=-b+\gamma \frac {w^Tw} {||w||}
wTx=−b+γ∣∣w∣∣wTw
∵
w
T
w
=
∣
∣
w
∣
∣
2
\because w^Tw=||w||^2
∵wTw=∣∣w∣∣2
∴
w
T
x
=
−
b
+
γ
∣
∣
w
∣
∣
\therefore w^Tx=-b+\gamma ||w||
∴wTx=−b+γ∣∣w∣∣
w
T
x
+
b
=
γ
∣
∣
w
∣
∣
w^Tx+b=\gamma||w||
wTx+b=γ∣∣w∣∣
γ = w T x + b ∣ ∣ w ∣ ∣ = f ( x ) ∣ ∣ w ∣ ∣ \gamma=\frac {w^Tx+b} {||w||}=\frac {f(x)}{||w||} γ=∣∣w∣∣wTx+b=∣∣w∣∣f(x)
为了得到 γ \gamma γ的绝对值,令 γ ~ = y γ = γ ^ ∣ ∣ w ∣ ∣ \tilde \gamma=y\gamma=\frac {\hat \gamma}{||w||} γ~=yγ=∣∣w∣∣γ^
如果令 γ ^ = 1 \hat \gamma=1 γ^=1,则 γ ~ = 1 ∣ ∣ w ∣ ∣ \tilde \gamma = \frac 1 {||w||} γ~=∣∣w∣∣1
之所以令 γ ^ = 1 \hat \gamma=1 γ^=1,是为了方便推导和优化,且这样做对目标函数没有影响
最大间隔分类器的目标函数:
于是,目标函数为
m
a
x
1
∣
∣
w
∣
∣
max \frac 1 {||w||}
max∣∣w∣∣1
约束条件: y i ( w T x i + b ) > = 1 , i = 1 , 2 , . . . , m y_i(w^Tx_i+b)>=1, i=1,2,...,m yi(wTxi+b)>=1,i=1,2,...,m
目标函数也等价于 m i n 1 2 ∣ ∣ w ∣ ∣ 2 min \frac 1 2||w||^2 min21∣∣w∣∣2
因为现在的目标函数是二次的,约束条件是线性的,所以它是一个凸二次规划问题 。这个问题可以用现成的QP (Quadratic Programming) 优化包进行求解
拉格朗日对偶性
由于这个问题的特殊结构,还可以通过拉格朗日对偶性(Lagrange Duality)变换到对偶变量 (dual variable) 的优化问题,即通过求解与原问题等价的对偶问题(dual problem)得到原始问题的最优解,这就是线性可分条件下支持向量机的对偶算法,这样做的优点在于:一者对偶问题往往更容易求解;二者可以自然的引入核函数,进而推广到非线性分类问题。
那什么是拉格朗日对偶性呢?简单来讲,通过给每一个约束条件加上一个拉格朗日乘子(Lagrange multiplier),定义如下拉格朗日函数(通过拉格朗日函数将约束条件融合到目标函数里去,从而只用一个函数表达式便能清楚的表达出我们的问题):
L
(
w
,
b
,
α
)
=
1
2
∣
∣
w
∣
∣
2
−
∑
i
=
1
m
α
i
(
y
i
(
w
T
x
i
+
b
)
−
1
)
L(w, b,\alpha)=\frac 1 2||w||^2-\sum_{i=1}^m\alpha_i(y_i(w^Tx_i+b)-1)
L(w,b,α)=21∣∣w∣∣2−i=1∑mαi(yi(wTxi+b)−1)
然后令 θ ( w ) = m a x α i ≥ 0 L ( w , b , α ) \theta(w)=max_{\alpha_i\ge0}L(w,b,\alpha) θ(w)=maxαi≥0L(w,b,α)
容易严重,当某个约束条件不满足,如 y i ( w T x i + b ) < 1 y_i(w^Tx_i+b)<1 yi(wTxi+b)<1,那么显然有 θ ( w ) = ∞ \theta(w)=\infty θ(w)=∞(只要令 α i = ∞ \alpha_i=\infty αi=∞即可)。而当约束条件都满足时,则最优值 θ ( w ) = 1 2 ∣ ∣ w ∣ ∣ 2 \theta(w)=\frac 1 2||w||^2 θ(w)=21∣∣w∣∣2,也就是最开始我们想要最小化的量。
于是,目标函数转化成了求
θ
(
w
)
\theta(w)
θ(w)的最小值:
m
i
n
w
,
b
θ
(
w
)
=
m
i
n
w
,
b
m
a
x
α
≥
0
L
(
w
,
b
,
α
)
=
p
∗
min_{w,b}\theta(w)=min_{w,b}max_{\alpha\ge0}L(w,b,\alpha)=p^*
minw,bθ(w)=minw,bmaxα≥0L(w,b,α)=p∗
p
∗
p^*
p∗的对偶问题
d
∗
=
m
a
x
α
≥
0
m
i
n
w
,
b
L
(
w
,
b
,
α
)
d^*=max_{\alpha\ge0}min_{w,b}L(w,b,\alpha)
d∗=maxα≥0minw,bL(w,b,α)
且 d ∗ ≤ p ∗ d^*\le p^* d∗≤p∗。
在满足强对偶条件时, p ∗ = d ∗ p^*=d^* p∗=d∗。这个时候就可以通过求解对偶问题来间接求解原始问题。
KKT条件:
有学者在强对偶下提出了KKT条件,且KKT条件的成立要满足约束条件,而约束条件之一就是Slater条件。
所谓Slater条件,即指:凸优化问题,如果存在一个点x,使得所有等式约束都成立,并且所有不等式约束都严格成立(即取严格不等号,而非等号),则满足Slater 条件
。对于此处,Slater 条件成立,所以 d ∗ ≤ p ∗ d^*≤p^* d∗≤p∗可以取等号。
一般的,一个最优化数学模型能够表示成以下标准形式:
m
i
n
(
f
(
x
)
)
s
.
t
.
h
j
(
x
)
=
0
,
j
=
1
,
2
,
.
.
.
,
p
g
k
(
x
)
<
=
0
,
k
=
1
,
2
,
.
.
.
,
q
x
∈
X
min(f(x))\\ s.t. \\ h_j(x)=0, j=1,2,...,p \\ g_k(x)<=0, k=1,2,...,q \\ x\in X
min(f(x))s.t.hj(x)=0,j=1,2,...,pgk(x)<=0,k=1,2,...,qx∈X
其中
f
(
x
)
f(x)
f(x)是需要最小化的函数,
h
(
x
)
h(x)
h(x)是等式约束,
g
(
x
)
g(x)
g(x)是不等式约束,
p
p
p和
q
q
q是等式约束和不等式约束的数量
凸优化 的概念:
X
X
X为凸集,
f
:
X
→
R
f:X →R
f:X→R为一凸函数。凸优化就是要找到一个点
X
∗
∈
X
X^*\in X
X∗∈X,使得每个
x
∈
X
x\in X
x∈X,满足
f
(
x
∗
)
≤
f
(
x
)
f(x^*)\le f(x)
f(x∗)≤f(x)
KKT条件的意义:它是一个非线性规划问题能有最优化解法的充要条件
KKT条件具体指的是:
上门最优化数学模型的标准形式的最小点
x
∗
x^*
x∗必须满足以下条件:
- h j ( x ∗ ) = 0 , j = 1 , 2 , . . . , p , g k ( x ∗ ) ≤ 0 , k = 1 , 2 , . . . , q h_j(x_*)=0, j=1,2,...,p, g_k(x^*)\le0, k=1,2,...,q hj(x∗)=0,j=1,2,...,p,gk(x∗)≤0,k=1,2,...,q
-
∇
f
(
x
∗
)
+
∑
j
=
1
p
λ
j
∇
h
j
(
x
∗
)
+
∑
k
=
1
q
μ
k
∇
g
k
(
x
∗
)
=
0
\nabla f(x^*)+\sum_{j=1}^p\lambda_j\nabla h_j(x^*)+\sum_{k=1}^q\mu_k\nabla g_k(x^*)=0
∇f(x∗)+∑j=1pλj∇hj(x∗)+∑k=1qμk∇gk(x∗)=0
λ j ≠ 0 , μ k ≥ 0 , μ k g k ( x ∗ ) = 0 \lambda_j\ne0,\mu_k\ge0,\mu_kg_k(x^*)=0 λj̸=0,μk≥0,μkgk(x∗)=0
经验证,我们这里的问题是满足kkt条件的(首先已经满足slater条件,再者f和gi也是可微的,即L对w和b都可导)
也就是说,原始问题通过满足kkt条件,转化成了对偶问题。而求解这个对欧问题,先求 m i n w , b L ( w , b , α ) min_{w,b}L(w,b,\alpha) minw,bL(w,b,α), 再求对 α \alpha α的极大,最后用SMO算法求解对偶问题中的拉格朗日乘子
对偶问题求解的三个步骤:
1、首先固定
α
\alpha
α,求
m
i
n
w
,
b
L
(
w
,
b
,
α
)
min_{w,b}L(w,b,\alpha)
minw,bL(w,b,α)
分别对
w
w
w和
b
b
b求偏导数,令其=0
∂ L ∂ w = 0 → w = ∑ i = 1 m α i y i x i \frac {\partial L}{\partial w}=0 →w=\sum_{i=1}^m\alpha_iy_ix_i ∂w∂L=0→w=∑i=1mαiyixi
∂ L ∂ b = 0 → ∑ i = 1 m α i y i = 0 \frac {\partial L}{\partial b}=0 \to \sum_{i=1}^m\alpha_iy_i=0 ∂b∂L=0→∑i=1mαiyi=0
将结果带入 L L L:
L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 − ∑ i = 1 m α i ( y i ( w T x i + b ) − 1 ) = 1 2 w T w − ∑ i = 1 m α i ( y i ( w T x i + b ) − 1 ) = 1 2 w T w − ∑ i = 1 m α i y i w T x i − ∑ i = 1 m α i y i b + ∑ i = 1 m α i = 1 2 w T w − w T ∑ i = 1 m α i y i x i − b ∑ i = 1 m α i y i + ∑ i = 1 m α i = 1 2 w T w − w T w − b ∗ 0 + ∑ i = 1 m α i = ∑ i = 1 m α i − 1 2 w T w = ∑ i = 1 m α i − 1 2 ( ∑ i = 1 m α i y i x i ) T ∑ i = 1 m α i y i x i = ∑ i = 1 m α i − 1 2 ∑ i = 1 m α i y i x i T ∑ i = 1 m α i y i x i = ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j = ∑ i = 1 m α i − 1 2 ∑ i , j = 1 m α i α j y i y j x i T x j L(w, b,\alpha)=\frac 1 2||w||^2-\sum_{i=1}^m\alpha_i(y_i(w^Tx_i+b)-1)\\ = \frac 1 2w^Tw-\sum_{i=1}^m\alpha_i(y_i(w^Tx_i+b)-1)\\ = \frac 1 2w^Tw-\sum_{i=1}^m\alpha_iy_iw^Tx_i-\sum_{i=1}^m\alpha_iy_ib+\sum_{i=1}^m\alpha_i\\ = \frac 1 2w^Tw-w^T\sum_{i=1}^m\alpha_iy_ix_i-b\sum_{i=1}^m\alpha_iy_i+\sum_{i=1}^m\alpha_i\\ = \frac 1 2w^Tw-w^Tw-b*0+\sum_{i=1}^m\alpha_i\\ = \sum_{i=1}^m\alpha_i-\frac 1 2w^Tw\\ = \sum_{i=1}^m\alpha_i-\frac 1 2(\sum_{i=1}^m\alpha_iy_ix_i)^T\sum_{i=1}^m\alpha_iy_ix_i\\ =\sum_{i=1}^m\alpha_i-\frac 1 2\sum_{i=1}^m\alpha_iy_ix_i^T\sum_{i=1}^m\alpha_iy_ix_i\\ =\sum_{i=1}^m\alpha_i-\frac 1 2\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ =\sum_{i=1}^m\alpha_i-\frac 1 2\sum_{i,j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j L(w,b,α)=21∣∣w∣∣2−i=1∑mαi(yi(wTxi+b)−1)=21wTw−i=1∑mαi(yi(wTxi+b)−1)=21wTw−i=1∑mαiyiwTxi−i=1∑mαiyib+i=1∑mαi=21wTw−wTi=1∑mαiyixi−bi=1∑mαiyi+i=1∑mαi=21wTw−wTw−b∗0+i=1∑mαi=i=1∑mαi−21wTw=i=1∑mαi−21(i=1∑mαiyixi)Ti=1∑mαiyixi=i=1∑mαi−21i=1∑mαiyixiTi=1∑mαiyixi=i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj=i=1∑mαi−21i,j=1∑mαiαjyiyjxiTxj
2、求对
α
\alpha
α的极大,即是关于对偶问题的最优化问题。经过上面一个步骤的求
w
w
w和
b
b
b,得到的拉格朗日函数式已经没有了变量
w
,
b
w,b
w,b,只有
α
\alpha
α.即
m
a
x
α
∑
i
=
1
m
α
i
−
1
2
∑
i
,
j
=
1
m
α
i
α
j
y
i
y
j
x
i
T
x
j
s
.
t
.
∑
i
=
1
m
α
i
y
i
=
0
,
α
i
≥
0
,
i
=
1
,
2
,
.
.
.
,
m
max_{\alpha}\sum_{i=1}^m\alpha_i-\frac 1 2\sum_{i,j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ s.t. \sum_{i=1}^m\alpha_iy_i=0, \\ \alpha_i\ge0,i=1,2,...,m
maxαi=1∑mαi−21i,j=1∑mαiαjyiyjxiTxjs.t.i=1∑mαiyi=0,αi≥0,i=1,2,...,m
这样求出了 α i \alpha_i αi,根据 w = ∑ i = 1 m α i y i x i w=\sum_{i=1}^m\alpha_iy_ix_i w=∑i=1mαiyixi,即可求出 w w w。 b ∗ b^* b∗为y=1那一类的点里最小的 w T x i w^Tx_i wTxi减去y=-1那一类里最大的 w T x j w^Tx_j wTxj,然后除以2。 b ∗ = m i n i : y i = 1 w T x i − m a x i : y i = − 1 w T x i 2 b^*=\frac {min_{i:y_i=1}w^Tx_i-max_{i:y_i=-1}w^Tx_i}{2} b∗=2mini:yi=1wTxi−maxi:yi=−1wTxi,最终得出分离超平面和分类决策函数
3、在求得 L ( w , b , α ) L(w,b,\alpha) L(w,b,α)关于 w w w和 b b b的最小化,以及对 α \alpha α的极大之后,最后一步则可以利用SMO算法求解对偶问题中的拉格朗日乘子 α \alpha α
核函数kernel:
大部分数据并不是线性可分,上述所说的超平面很多情况下都不存在。对非线性的情况,svm是选择一个核函数,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。
具体来说,在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。如图所示,一堆数据在二维空间无法划分,从而映射到三维空间里划分:
f
(
x
)
=
w
T
x
+
b
=
(
∑
i
=
1
m
α
i
y
i
x
i
)
T
x
+
b
=
∑
i
=
1
m
α
i
y
i
x
i
T
x
+
b
=
∑
i
=
1
m
α
i
y
i
⟨
x
i
,
x
⟩
+
b
f(x)=w^Tx+b=(\sum_{i=1}^m\alpha_iy_ix_i)^Tx+b=\sum_{i=1}^m\alpha_iy_ix_i^Tx+b=\sum_{i=1}^m\alpha_iy_i\langle x_i,x\rangle +b
f(x)=wTx+b=(i=1∑mαiyixi)Tx+b=i=1∑mαiyixiTx+b=i=1∑mαiyi⟨xi,x⟩+b
在遇到核函数之前,用线性学习器学习一个非线性关系,需要选择一个非线性特征集,并将数据写成新的表达形式,这等价于应用一个固定的非线性映射,将数据映射到特征空间,在特征空间中使用线性学习器。因此,
x
i
−
>
ϕ
i
(
x
)
x_i->\phi _i(x)
xi−>ϕi(x)
f
(
x
)
=
∑
i
=
1
m
w
i
ϕ
x
(
x
)
+
b
=
∑
i
=
1
m
α
i
y
i
⟨
ϕ
(
x
i
)
⋅
ϕ
(
x
)
⟩
+
b
f(x)=\sum_{i=1}^mw_i\phi_x(x)+b=\sum_{i=1}^m\alpha_iy_i\langle\phi(x_i)·\phi(x)\rangle+b
f(x)=∑i=1mwiϕx(x)+b=∑i=1mαiyi⟨ϕ(xi)⋅ϕ(x)⟩+b
如果有一种方式可以在特征空间中直接计算内积 ⟨ ϕ ( x i ) ⋅ ϕ ( x ) ⟩ \langle\phi(x_i)·\phi(x)\rangle ⟨ϕ(xi)⋅ϕ(x)⟩,就像在原始输入点的函数中一样就有可能,将两个步骤融合到一起,建立一个非线性的学习器。这样直接计算的方法称为核函数方法
核是一个函数K,对所有
x
,
z
x,z
x,z满足
K
(
x
,
z
)
=
⟨
ϕ
(
x
)
⋅
ϕ
(
z
)
⟩
K(x,z)=\langle\phi(x)·\phi(z)\rangle
K(x,z)=⟨ϕ(x)⋅ϕ(z)⟩
这里
ϕ
\phi
ϕ是从
X
X
X到内积特征空间F的映射
核函数如何处理非线性数据
来看个核函数的例子。下图两类数据,是线性不可分的。
事实上,上图所述的这个数据集,是用两个半径不同的圆圈加上了少量的噪音生成得到的,所以,一个理想的分界应该是一个“圆圈”而不是一条线(超平面)
如果用
X
1
X_1
X1和
X
2
X_2
X2来表示这个二维平面的两个坐标的话,我们知道一条二次曲线(圆圈是二次曲线的一种特殊情况)的方程可以写作这样的形式:
a
1
X
1
+
a
2
X
1
2
+
a
3
X
2
+
a
4
X
2
2
+
a
5
X
1
X
2
+
a
6
=
0
a_1X_1+a_2X_1^2+a_3X_2+a_4X_2^2+a_5X_1X_2+a_6=0
a1X1+a2X12+a3X2+a4X22+a5X1X2+a6=0
注意上面的形式,如果我们构造另外一个五维的空间,其中五个坐标的值分别为
Z
1
=
X
1
,
Z
2
=
X
1
2
,
Z
3
=
X
2
,
Z
4
=
X
2
2
,
Z
5
=
X
1
X
2
Z_1=X_1,Z_2=X_1^2,Z_3=X_2,Z_4=X_2^2,Z_5=X_1X_2
Z1=X1,Z2=X12,Z3=X2,Z4=X22,Z5=X1X2,那么显然,上面的方程在新的坐标系下可以写作:
∑
i
=
1
5
a
z
Z
i
+
a
6
=
0
\sum_{i=1}^5a_zZ_i+a_6=0
i=1∑5azZi+a6=0
我们做了这个映射 Φ : R 2 → R 5 \Phi:R_2 \rightarrow R_5 Φ:R2→R5,将 X X X映射到 Z Z Z,在新的空间中原来的数据变成线性可分。这就是核函数处理非线性问题的基本思想
这里的超平面其实是圆心在
X
2
X_2
X2轴上的一个正圆:
a
1
X
1
2
+
a
2
(
X
2
−
c
)
2
+
a
3
=
0
a_1X_1^2 + a_2(X_2-c)^2 + a_3 = 0
a1X12+a2(X2−c)2+a3=0,因此只需要把它映射到
Z
1
=
X
1
2
,
Z
2
=
X
2
2
,
Z
3
=
X
2
Z_1=X_1^2,Z_2=X_2^2,Z_3=X_2
Z1=X12,Z2=X22,Z3=X2这样一个三维空间即可。
我们上一次得到的最终的分类函数是这样的: f ( x ) = ∑ i = 1 n α i y i ⟨ x i , x ⟩ + b f(x) = \sum_{i=1}^n\alpha_i y_i \langle x_i, x\rangle + b f(x)=i=1∑nαiyi⟨xi,x⟩+b
现在则是在映射过后的空间,即: f ( x ) = ∑ i = 1 n α i y i ⟨ ϕ ( x i ) , ϕ ( x ) ⟩ + b f(x) = \sum_{i=1}^n\alpha_i y_i \langle \phi(x_i), \phi(x)\rangle + b f(x)=i=1∑nαiyi⟨ϕ(xi),ϕ(x)⟩+b
而其中的 α 也是通过求解如下 dual 问题而得到的:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ \max_\alpha &\…
这样一来问题就解决了吗?似乎是的:拿到非线性数据,就找一个映射 ϕ(⋅) ,然后一股脑把原来的数据映射到新空间中,再做线性 SVM 即可。不过若真是这么简单,我这篇文章的标题也就白写了——说了这么多,其实还没到正题呐!其实刚才的方法稍想一下就会发现有问题:在最初的例子里,我们对一个二维空间做映射,选择的新空间是原始空间的所有一阶和二阶的组合,得到了五个维度;如果原始空间是三维,那么我们会得到 19 维的新空间(验算一下?),这个数目是呈爆炸性增长的,这给 ϕ(⋅) 的计算带来了非常大的困难,而且如果遇到无穷维的情况,就根本无从计算了。所以就需要 Kernel 出马了。
不妨还是从最开始的简单例子出发,设两个向量
x
1
=
(
η
1
,
η
2
)
T
x_1 = (\eta_1,\eta_2)^T
x1=(η1,η2)T
和
x
2
=
(
ξ
1
,
ξ
2
)
T
x_2=(\xi_1,\xi_2)^T
x2=(ξ1,ξ2)T,而
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)即是到前面说的五维空间的映射,因此映射过后的内积为:
⟨ ϕ ( x 1 ) , ϕ ( x 2 ) ⟩ = η 1 ξ 1 + η 1 2 ξ 1 2 + η 2 ξ 2 + η 2 2 ξ 2 2 + η 1 η 2 ξ 1 ξ 2 \langle \phi(x_1),\phi(x_2)\rangle = \eta_1\xi_1 + \eta_1^2\xi_1^2 + \eta_2\xi_2 + \eta_2^2\xi_2^2+\eta_1\eta_2\xi_1\xi_2 ⟨ϕ(x1),ϕ(x2)⟩=η1ξ1+η12ξ12+η2ξ2+η22ξ22+η1η2ξ1ξ2
另外,我们又注意到: ( ⟨ x 1 , x 2 ⟩ + 1 ) 2 = 2 η 1 ξ 1 + η 1 2 ξ 1 2 + 2 η 2 ξ 2 + η 2 2 ξ 2 2 + 2 η 1 η 2 ξ 1 ξ 2 + 1 \left(\langle x_1, x_2\rangle + 1\right)^2 = 2\eta_1\xi_1 + \eta_1^2\xi_1^2 + 2\eta_2\xi_2 + \eta_2^2\xi_2^2 + 2\eta_1\eta_2\xi_1\xi_2 + 1 (⟨x1,x2⟩+1)2=2η1ξ1+η12ξ12+2η2ξ2+η22ξ22+2η1η2ξ1ξ2+1
二者有很多相似的地方,实际上,我们只要把某几个维度线性缩放一下,然后再加上一个常数维度,具体来说,上面这个式子的计算结果实际上和映射
φ
(
X
1
,
X
2
)
=
(
2
X
1
,
X
1
2
,
2
X
2
,
X
2
2
,
2
X
1
X
2
,
1
)
T
\varphi(X_1,X_2)=(\sqrt{2}X_1,X_1^2,\sqrt{2}X_2,X_2^2,\sqrt{2}X_1X_2,1)^T
φ(X1,X2)=(2X1,X12,2X2,X22,2X1X2,1)T
之后的内积
⟨
φ
(
x
1
)
,
φ
(
x
2
)
⟩
\langle \varphi(x_1),\varphi(x_2)\rangle
⟨φ(x1),φ(x2)⟩的结果是相等的(自己验算一下)。区别在于什么地方呢?一个是映射到高维空间中,然后再根据内积的公式进行计算;而另一个则直接在原来的低维空间中进行计算,而不需要显式地写出映射后的结果。回忆刚才提到的映射的维度爆炸,在前一种方法已经无法计算的情况下,后一种方法却依旧能从容处理,甚至是无穷维度的情况也没有问题。
我们把这里的计算两个向量在映射过后的空间中的内积的函数叫做核函数 (Kernel Function) ,例如,在刚才的例子中,我们的核函数为:
κ ( x 1 , x 2 ) = ( ⟨ x 1 , x 2 ⟩ + 1 ) 2 \kappa(x_1,x_2)=\left(\langle x_1, x_2\rangle + 1\right)^2 κ(x1,x2)=(⟨x1,x2⟩+1)2
核函数能简化映射空间中的内积运算——刚好“碰巧”的是,在我们的 SVM 里需要计算的地方数据向量总是以内积的形式出现的。对比刚才我们写出来的式子,现在我们的分类函数为:
∑
i
=
1
n
α
i
y
i
κ
(
x
i
,
x
)
+
b
\sum_{i=1}^n\alpha_i y_i \color{red}{\kappa(x_i,x)} + b
i=1∑nαiyiκ(xi,x)+b
其中
α
\alpha
α 由如下 dual 问题计算而得:
KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ \max_\alpha &\…
这样一来计算的问题就算解决了,避开了直接在高维空间中进行计算,而结果却是等价的,实在是一件非常美妙的事情!当然,因为我们这里的例子非常简单,所以我可以手工构造出对应于 φ(⋅) 的核函数出来,如果对于任意一个映射,想要构造出对应的核函数就很困难了。
最理想的情况下,我们希望知道数据的具体形状和分布,从而得到一个刚好可以将数据映射成线性可分的 ϕ(⋅) ,然后通过这个 ϕ(⋅) 得出对应的 κ(⋅,⋅) 进行内积计算。然而,第二步通常是非常困难甚至完全没法做的。不过,由于第一步也是几乎无法做到,因为对于任意的数据分析其形状找到合适的映射本身就不是什么容易的事情,所以,人们通常都是“胡乱”选择映射的,所以,根本没有必要精确地找出对应于映射的那个核函数,而只需要“胡乱”选择一个核函数即可——我们知道它对应了某个映射,虽然我们不知道这个映射具体是什么。由于我们的计算只需要核函数即可,所以我们也并不关心也没有必要求出所对应的映射的具体形式。 ?
当然,说是“胡乱”选择,其实是夸张的说法,因为并不是任意的二元函数都可以作为核函数,所以除非某些特殊的应用中可能会构造一些特殊的核(例如用于文本分析的文本核,注意其实使用了 Kernel 进行计算之后,其实完全可以去掉原始空间是一个向量空间的假设了,只要核函数支持,原始数据可以是任意的“对象”——比如文本字符串),通常人们会从一些常用的核函数中选择(根据问题和数据的不同,选择不同的参数,实际上就是得到了不同的核函数),例如:
- 多项式核 κ ( x 1 , x 2 ) = ( ⟨ x 1 , x 2 ⟩ + R ) d \kappa(x_1,x_2) = \left(\langle x_1,x_2\rangle + R\right)^d κ(x1,x2)=(⟨x1,x2⟩+R)d。显然刚才我们举的例子是这里多项式核的一个特例(R=1,d=2)。虽然比较麻烦,而且没有必要,不过这个核所对应的映射实际上是可以写出来的,该空间的维度是 C(m+d,d) ,其中 m 是原始空间的维度。
- 高斯核
κ
(
x
1
,
x
2
)
=
exp
(
−
∥
x
1
−
x
2
∥
2
2
σ
2
)
\kappa(x_1,x_2) = \exp\left(-\frac{\|x_1-x_2\|^2}{2\sigma^2}\right)
κ(x1,x2)=exp(−2σ2∥x1−x2∥2)
这个核就是最开始提到过的会将原始空间映射为无穷维空间的那个家伙。不过,如果 σ 选得很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果 σ 选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调控参数 σ ,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一。 - 线性核 κ(x1,x2)=⟨x1,x2⟩ ,这实际上就是原始空间中的内积。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了。
核函数的本质
上面说了这么一大堆,读者可能还是没明白核函数到底是个什么东西?我再简要概括下,即以下三点:
- 实际中,我们会经常遇到线性不可分的样例,此时,我们的常用做法是把样例特征映射到高维空间中去(如上文2.2节最开始的那幅图所示,映射到高维空间后,相关特征便被分开了,也就达到了分类的目的);
- 但进一步,如果凡是遇到线性不可分的样例,一律映射到高维空间,那么这个维度大小是会高到可怕的(如上文中19维乃至无穷维的例子)。那咋办呢?
- 此时,核函数就隆重登场了,核函数的价值在于它虽然也是将特征进行从低维到高维的转换,但核函数绝就绝在它事先在低维上进行计算,而将实质上的分类效果表现在了高维上,也就如上文所说的避免了直接在高维空间中的复杂计算。
使用松弛变量处理outliers方法
用黑圈圈起来的那个蓝点是一个 outlier ,它偏离了自己原本所应该在的那个半空间,如果直接忽略掉它的话,原来的分隔超平面还是挺好的,但是由于这个 outlier 的出现,导致分隔超平面不得不被挤歪了,变成途中黑色虚线所示(这只是一个示意图,并没有严格计算精确坐标),同时 margin 也相应变小了。当然,更严重的情况是,如果这个 outlier 再往右上移动一些距离的话,我们将无法构造出能将数据分开的超平面来。
为了处理这种情况,SVM 允许数据点在一定程度上偏离一下超平面。例如上图中,黑色实线所对应的距离,就是该 outlier 偏离的距离,如果把它移动回来,就刚好落在原来的 超平面 蓝色间隔边界上,而不会使得超平面发生变形了。
OK,继续回到咱们的问题。我们,原来的约束条件为:
y
i
(
w
T
x
i
+
b
)
≥
1
,
i
=
1
,
2
,
.
.
.
,
n
y_i(w^Tx_i+b)\ge 1, i=1,2,...,n
yi(wTxi+b)≥1,i=1,2,...,n
现在考虑到outlier问题,约束条件变成了:
y
i
(
w
T
x
i
+
b
)
≥
1
−
ξ
i
,
i
=
1
,
2
,
.
.
.
,
n
y_i(w^Tx_i+b)\ge 1-\xi_i, i=1,2,...,n
yi(wTxi+b)≥1−ξi,i=1,2,...,n
其中
ξ
i
≥
0
\xi_i \ge 0
ξi≥0称为松弛变量,对应数据点
x
i
x_i
xi允许偏离functional margin的量。当然,如果
ξ
i
\xi_i
ξi任意大的话,那任何超平面都是符合条件的了,所以我们在原来的目标函数后面加上一项,使得这些
x
i
i
xi_i
xii的综合也要最小:
m
i
n
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
n
ξ
i
min\frac 1 2||w||^2+C\sum_{i=1}^n\xi_i
min21∣∣w∣∣2+Ci=1∑nξi
其中C是一个参数,用于控制目标函数中两项(寻找间隔最大的超平面和保证数据点偏差量最小)之间的权重。完整的最优化问题变成了这样:
用之前的方法将限制或约束条件加入到目标函数中,得到新的拉格朗日函数,如下所示:
分析方法和前面一样,转化为另一个问题后,我们先让
L
L
L对
w
、
b
w、b
w、b和
ξ
\xi
ξ最小化:
将
w
w
w代回
L
L
L化并化简,得到和原来一样的目标函数:
不过,由于我们得到
C
−
α
i
−
r
i
=
0
C-\alpha_i-r_i=0
C−αi−ri=0,又有
r
i
≥
0
r_i\ge 0
ri≥0则有
0
≤
α
i
≤
C
0 \le \alpha_i \le C
0≤αi≤C。整个最优化问题现在变成了:
之前的最优化问题是:
m
a
x
α
∑
i
=
1
m
α
i
−
1
2
∑
i
,
j
=
1
m
α
i
α
j
y
i
y
j
x
i
T
x
j
s
.
t
.
∑
i
=
1
m
α
i
y
i
=
0
,
α
i
≥
0
,
i
=
1
,
2
,
.
.
.
,
m
max_{\alpha}\sum_{i=1}^m\alpha_i-\frac 1 2\sum_{i,j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ s.t. \sum_{i=1}^m\alpha_iy_i=0, \\ \alpha_i\ge0,i=1,2,...,m
maxαi=1∑mαi−21i,j=1∑mαiαjyiyjxiTxjs.t.i=1∑mαiyi=0,αi≥0,i=1,2,...,m
可以看到唯一的区别就是现在 α \alpha α 多了一个上限 C。而 Kernel 化的非线性形式也是一样的,只要把 < x i , x j > <x_i,x_j> <xi,xj>换成 k ( x i , x j ) k(x_i,x_j) k(xi,xj)即可。这样一来,一个完整的,可以处理线性和非线性并能容忍噪音和 outliers 的支持向量机才终于介绍完毕了
SMO算法
最后我们得到的最优化问题是:
等价于求解:
SMO算法的推导
SMO算法的思路:启发式抽取两个乘子 α 1 , α 2 \alpha_1,\alpha_2 α1,α2,,固定其他乘子,使得目标函数只是 α 1 , α 2 \alpha_1,\alpha_2 α1,α2的函数。这样,不断地从一堆乘子中抽取两个求解,不断的迭代求解子问题,最终收敛,即达到求解原问题的目的。
原对偶问题的子问题的目标函数可以表示为:
$$$$