鉴于我刚开始学习支持向量机(Support vector machines,简称SVM)时的一脸懵逼,我认为有必要先给出一些SVM的定义。
下面是一个最简单的SVM:
- 分类算法:支持向量机(SVM)是一个分类算法(机器学习中经常把算法称为一个“机器”),它的目标是找到图中实线所表示的决策边界,也称为超平面(Hyperplane)
- 支持向量(Support vectors):支持向量就是图中虚线穿过的数据点(两个×与一个O),直观上来看,它们确定了超平面的位置——超平面与过同一类的两个支持向量(两个×)的直线平行,并且两类支持向量到超平面的距离相等
- 与logistic回归的对比:SVM与logistic回归用的是相同的模型,但是处理方式不一样——logistic回归用概率的方式求解模型(最大似然估计),SVM从几何的角度解析;另外在logistic回归中,每一个数据点都会对分类平面产生影响,在SVM中它却只关注支持向量(如果支持向量无变化,增加或者删除一些远处的数据点,产生的超平面还是一样的)——所以产生了这两个不同的算法,但是它们还是比较相似的
明明是SVM算法却在这里提到logistic回归模型是为了作为源头引出SVM的推导,至于更深的背景,比如SVM被认为几乎是最好的监督学习啦,SVM是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的啦,SVM作为统计机器学习与传统机器学习的本质区别啦……目前的我还没有形成一个整体的、完善的认识,虽然下一份总结里就要说到学习理论与结构风险最小化,但是对于海面之下的冰山,我暂时还没法看到。在这里我只是想老老实实地把SVM从推导,到转换与优化,到最后求解的过程做一个总结写下来。
还需要说明的是,图一是最简单的SVM,它是线性可分的,并且从图一上来看它是没有噪点的,第一章“SVM的推导”可以把这个漂亮的线性可分的模型推导出来。
但是实际的情况不可能这么完美。当数据线性不可分的时候,我们需要引入核函数在更高维的空间里去寻找这个超平面(数据在更高维的空间里会更加线性可分);当噪点存在的时候,我们引入软间隔分类器,这时候在支持向量附近,允许有一些噪点被分错,即允许误差的存在。而这两点都是在将目标函数转化为对偶问题之后实现的。这些都会在第二章“SVM转换与优化”中介绍。
1、SVM的推导
1.1、起源
SVM与logistic回归使用了相同的模型,现在让我们来回顾一下熟悉的logistic回归模型:
hθ(x)=g(θTx)=11+e−θTx(1)h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}\tag{1}hθ(x)=g(θTx)=1+e−θTx1(1)
其中:
g(z)=11+e−z(2)g(z)=\frac{1}{1+e^{-z}}\tag{2}g(z)=1+e−z1(2)
并且其图像如下图:
下面是在logistic回归模型下,因为SVM这个算法的特点而引起的符号改变:
y=hθ(x)=g(θTx)=g(wTx+b)=hw,b(x)(3)y=h_\theta(x)=g(\theta^Tx)=g(w^Tx+b)=h_{w,b}(x)\tag{3}y=hθ(x)=g(θTx)=g(wTx+b)=hw,b(x)(3)
直观点的改变是:
θTx=θ0+θ1x1+θ2x2+⋯+θnxn=b+w1x1+w2x2+⋯+wnxn=wTx+b(4)\theta^Tx=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n=b+w_1x_1+w_2x_2+\cdots+w_nx_n=w^Tx+b\tag{4}θTx=θ0+θ1x1+θ2x2+⋯+θnxn=b+w1x1+w2x2+⋯+wnxn=wTx+b(4)
截距b就是截距θ0\theta_0θ0,向量www就是除了θ0\theta_0θ0外,剩下的向量θ\thetaθ,而且这里的向量xxx应该是差了一个x0=1x_0=1x0=1(xθ,θ∈Rn+1x_\theta,\theta \in R^{n+1}xθ,θ∈Rn+1,xw,w∈Rnx_w,w \in R^{n}xw,w∈Rn),但是不影响…它们表达的意思是一样的,只是换了些符号而已。
另外,这里的g(z)g(z)g(z)不再是式(2)中的形式,而是:
Expected node of symbol group type, but got node of type cr
恩…长得很像感知器。
式(3)与式(5)就是SVM模型了,参数是θ\thetaθ与bbb,当这两个参数确定了,我们就可以做出分类超平面,对数据进行分类。
对同一个模型,logistic模型用概率的方式求解,下面就要引入函数间隔与几何间隔来从几何的角度来解析SVM了。
1.2、函数间隔(Functional margins)与几何间隔(Geometric margins)
给定一个训练样本(x(i),y(i))(x^{(i)},y^{(i)})(x(i),y(i)),我们将其函数间隔定义为:
γ^(i)=y(i)(wTx(i)+b)(6) \hat{\gamma}^{(i)}=y^{(i)}(w^Tx^{(i)}+b)\tag{6} γ^(i)=y(i)(wTx(i)+b)(6)
函数间隔的作用有两个。
一个是确认样本点有没有被正确分类:
由式(3)与式(5)可以知道,y(i)y^{(i)}y(i)的取值为{1,−11,-11,−1},那么在w,bw,bw,b确定了,并且样本被正确分类的情况下,wTx+bw^Tx+bwTx+b与y(i)y^{(i)}y(i)是同号的,即γ^(i)=∣(wTx+b)∣\hat{\gamma}^{(i)}=\left|(w^Tx+b)\right|γ^(i)=(wTx+b),所以当函数间隔γ^(i)>0\hat{\gamma}^{(i)}>0γ^(i)>0,即γ^(i)\hat{\gamma}^{(i)}γ^(i)是正数的时候,我们就认为这个点被正确地分类了(错误分类时γ^(i)<0\hat{\gamma}^{(i)}<0γ^(i)<0)。
另一个是衡量该样本点被正确分类的确信度:
在起源中由sigmoid函数g(z)g(z)g(z)我们注意到,一个点离超平面越远,其输出就越接近1,同样地,γ^(i)\hat{\gamma}^{(i)}γ^(i)越大,这个样本被分对的也确信度越大。
进一步地,相比只有一个训练样本的情况,如果给定一个训练集S=S=S={(x(i),y(i);i=1,2,⋯ ,m)(x^{(i)},y^{(i)};i=1,2,\cdots,m)(x(i),y(i);i=1,2,⋯,m)},那么整个训练集合的函数间隔为:
γ^=mini=1,2,⋯ ,mγ^(i)(7) \hat{\gamma}=\min_{i=1,2,\cdots,m} \hat{\gamma}^{(i)}\tag{7} γ^=i=1,2,⋯,mminγ^(i)(7)
有了函数间隔我们就可以去选择超平面了,在判断数据点有没有被正确分类这一点上,函数间隔没有问题。当所有样本点的函数间隔都是正数的时候,它们就全都被正确分类了(在这里讨论的是数据集线性可分的情况,如图一所示)。
需要注意的是,此时的超平面不一定就是最优的,所以我们还要最大化其被分类正确的确信度,这时候就需要依赖到函数间隔的第二个作用了。
但是在使得确信度最大这一点上,函数间隔却存在着缺陷。我们希望在样本点全部被正确分类的前提下,它们被分对的确信度最大,即让γ^\hat{\gamma}γ^尽可能地大(这与式(7)中选取最小(即确信度最小)的γ^(i)\hat{\gamma}^{(i)}γ^(i)来作为整个训练集的函数间隔γ^\hat{\gamma}γ^并不矛盾,还有点在确立最大下界的意思)。
可是我们发现,只要成比例地改变www与bbb,比如把它们变成2w2w2w与2b2b2b,超平面并没有发生改变,但是函数间隔γ^\hat{\gamma}γ^却变成了原来的两倍,这意味着,我们可以成比例地增大www与bbb,使得函数间隔γ^\hat{\gamma}γ^变得无限大。这显然没有意义,因为超平面的位置并没有发生改变。
这时候就轮到几何间隔出场了,它是增加了约束的函数间隔,使函数间隔变得唯一,用符号γ\gammaγ表示。
直观上来看几何间隔是样本点到超平面的距离。
此时改变几何间隔就能够移动超平面,同时几何间隔仍然能反映样本被正确分类的确信度,所以对几何间隔的最大化,就是对超平面的最优化。
下面我们借助图三来寻找几何间隔:
类似地,相比只有一个训练样本的情况,如果给定一个训练集S=S=S={(x(i),y(i);i=1,2,⋯ ,m)(x^{(i)},y^{(i)};i=1,2,\cdots,m)(x(i),y(i);i=1,2,⋯,m)},那么整个训练集合的几何间隔为:
γ=mini=1,2,⋯ ,mγ(i)(14) \gamma=\min_{i=1,2,\cdots,m}\gamma^{(i)}\tag{14} γ=i=1,2,⋯,mminγ(i)(14)
1.3、最优间隔分类器(The optimal margin classifier)
有了几何间隔,我们就可以确定最优超平面的位置,即最优间隔分类器了:
\begin{align}
&\max_{\gamma,w,b} \quad \gamma\
&s.t. \quad y^{(i)}((\frac{w}{\left | w \right |})Tx{(i)}+\frac{b}{\left | w \right |} )\geq\gamma,\quad i=1,2,\cdots,m
\tag{15}
\end{align}
把图一再贴上来一次,并且默认上方的叉叉为正实例,下方的圈圈为负实例:
其次,我们来考虑最优的问题。虽说确定了超平面一定在两条虚线之间,但是那里面仍然有无数个超平面,如何确定最优?
综合几何间隔与函数间隔的第二个作用,我们有这样的结论:“几何间隔越大,样本被正确分类的确信度越大”,当式(15)中maxγ,w,bγ\max_{\gamma,w,b} \quad \gammamaxγ,w,bγ这个式子满足的时候,我们发现超平面正好处于两条虚线的中线位置,它也是我们直观上能想象到的最好的位置了。为什么这么巧?
直观上来说,支持向量是最靠近超平面的存在,所以由式(14)可以知道,支持向量的几何间隔,就是整个样本集的几何间隔,因为其它的点离超平面更远,不在考虑范围之内了。
我们可以想象一下这条实线(超平面)沿着平行的方向上下移动,举个极端的例子,超平面移动到支持向量上,与某一条虚线重合了,这时候所有样本点也是分类正确的,但是此时的几何间隔γ=0\gamma =0γ=0,它是不满足“几何间隔最大”这个要求的,然后我们慢慢将超平面从虚线向另一侧的虚线移动,每移动一分几何间隔γ\gammaγ就增大一分,直到达到中线的位置,支持向量到超平面的距离相等,γ\gammaγ才达到最大,超平面达到最优(如果超平面继续向另一侧虚线移动,γ\gammaγ又会变小)。
解释了这么多是为了说明,满足了式(15)的参数w,bw,bw,b可以确定最优超平面,所以它就是我们的目标函数了。那是不是就可以开始对式(15)进行求解了,求解得到了w,bw,bw,b,SVM的工作就完成了。
嗯,是的,求解得到w,bw,bw,b,SVM的工作就完成了。但是,工作还没有开始。因为这个样子的目标函数没法求解,或者直接求解难度太大,因为它不是一个凸函数,没法用常规的梯度下降或者牛顿法求解。目前的我也不知道如果不用讲义上给的方法,还有没有别的方法可以手动求解。所以,按着给出的方法接着往下走吧。
由函数间隔与几何间隔的关系γ(i)=γ^(i)∥w∥\gamma^{(i)}= \frac{\hat{\gamma}^{(i)}}{\left \| w \right \|}γ(i)=∥w∥γ^(i),我们可以对 式(15)进行如下的改写:
\begin{align}
&\max_{\hat{\gamma},w,b} \quad \frac{\hat{\gamma}}{\left | w \right |}\
&s.t. \quad y{(i)}(wTx^{(i)}+b )\geq\hat{\gamma},\quad i=1,2,\cdots,m
\tag{16}
\end{align}
因为函数间隔的改变不影响超平面的位置,所以为了进一步化简目标函数,我们给函数间隔一个约束γ^=1\hat{\gamma}=1γ^=1使其变得唯一,此时γ^∥w∥=1∥w∥\frac{\hat{\gamma}}{\left \| w \right \|}=\frac{1}{\left \| w \right \|}∥w∥γ^=∥w∥1,又因为最大化1∥w∥\frac{1}{\left \| w \right \|}∥w∥1与最小化12∥w∥2\frac{1}{2}\left \| w \right \|^221∥w∥2是一样的,所以有:
\begin{align}
&\min_{\gamma,w,b} \quad \frac{1}{2}\left | w \right |^2\
&subject \ to \quad y{(i)}(wTx^{(i)}+b )\geq1,\quad i=1,2,\cdots,m
\tag{17}
\end{align}
这样,目标函数就变成式(17)的样子了,接下来就可以对这个函数进行求解了。
2、SVM的转换与优化
2.1、SVM转换——引入拉格朗日对偶与KKT条件
2.1.1、目标函数转化为原始问题(Primal problem)
现在,我们将目标函数式(17)改写一下 :
\begin{align}
令\quad f(w)&= \frac{1}{2}\left | w \right |^2\
令 \quad g(w_i)&= -y{(i)}(wTx^{(i)}+b )+1\leq0
\tag{18}
\end{align}
然后引入拉格朗日乘子(Lagrange multipliers)αi≥0(i=1,2,⋯ ,n)\alpha_i\geq0(i=1,2,\cdots,n)αi≥0(i=1,2,⋯,n)得到如下原始问题:
\begin{align}
&\quad\min_{w,b} \max_{\alpha\geq0} (\frac{1}{2}\left | w \right |2-\sum_{i=1}m \alpha_i[y{(i)}(wTx^{(i)}+b )-1])\
&=\min_{w,b} \max_{\alpha\geq0} (f(w)+\sum_{i=1}^m \alpha_ig(w_i))\
&=\min_{w,b} \max_{\alpha\geq0} L(w,b,\alpha)\
&=\min_{w,b}\theta_p(w)
\tag{19}
\end{align}
下标ppp被称为原始问题,即:
\begin{align}
\theta_p(w)=\max_{\alpha\geq0} L(w,b,\alpha)=\max_{\alpha\geq0}(f(w)+\sum_{i=1}^m \alpha_ig(w_i))=\max_{\alpha\geq0}(\frac{1}{2}\left | w \right |2-\sum_{i=1}m \alpha_i[y{(i)}(wTx^{(i)}+b )-1])
\tag{20}
\end{align}
虽然很突兀,式(19)与式(17)是等价的。这是因为有被称为栅栏(Barrier)的带有拉格朗日乘子的那个加项maxα≥0∑i=1mαig(wi)\max_{\alpha\geq0}\sum_{i=1}^m \alpha_ig(w_i)maxα≥0∑i=1mαig(wi)的存在,它的作用是将不可行域的www排除掉,只留下了可行域内的www,式(19)与式(17)一样,都表达了“在y(i)(wTx(i)+b)≥1(即g(wi)=≤0)y^{(i)}(w^Tx^{(i)}+b )\geq1(即g(w_i)=\leq0)y(i)(wTx(i)+b)≥1(即g(wi)=≤0)的约束下,对12∥w∥2(即f(w))求最小值\frac{1}{2}\left \| w \right \|^2 (即f(w))求最小值21∥w∥2(即f(w))求最小值”的意思。
我们先来考虑不可行域的情况。
不可行域指的是不满足约束y(i)(wTx(i)+b)≥1y^{(i)}(w^Tx^{(i)}+b )\geq1y(i)(wTx(i)+b)≥1的www,此时y(i)(wTx(i)+b)<1y^{(i)}(w^Tx^{(i)}+b )<1y(i)(wTx(i)+b)<1,即g(wi)>0g(w_i)>0g(wi)>0。然后我们看向maxα≥0∑i=1mαig(wi)\max_{\alpha\geq0}\sum_{i=1}^m \alpha_ig(w_i)maxα≥0∑i=1mαig(wi)这个加项,因为α≥0\alpha\geq0α≥0且g(wi)>0g(w_i)>0g(wi)>0,所以此时求最大值是没有意义的,它的最大值就是无限大。
再来考虑可行域的情况。
可行域就是y(i)(wTx(i)+b)≥1y^{(i)}(w^Tx^{(i)}+b )\geq1y(i)(wTx(i)+b)≥1这个区域,此时g(wi)≤0g(w_i)\leq0g(wi)≤0。同样地,对∑i=1mαig(wi)\sum_{i=1}^m \alpha_ig(w_i)∑i=1mαig(wi)求最大值,此时的条件是α≥0\alpha\geq0α≥0且g(wi)≤0g(w_i)\leq0g(wi)≤0,明显地,最大值为0。
所以在可行域下有:
\begin{align}
\theta_p(w)=\max_{\alpha\geq0}(f(w)+\sum_{i=1}^m \alpha_ig(w_i))=\max_{\alpha\geq0}f(w)+\max_{\alpha\geq0}\sum_{i=1}^m \alpha_ig(w_i)=\max_{\alpha\geq0}f(w)+0=f(w)
\tag{21}
\end{align}
结合起来就是:
Expected node of symbol group type, but got node of type cr
所以引入了拉格朗日乘子的原始问题式(19)minw,bθp(w)\min_{w,b}\theta_p(w)minw,bθp(w)与目标函数式(17)是等价的:
Expected node of symbol group type, but got node of type cr
2.1.2、原始问题与对偶问题(Dual problem)的关系
对于原始问题有:
\begin{align}
\min_{w,b}\theta_p(w,b)&=\min_{w,b}\max_{\alpha\geq0} L(w,b,\alpha)\
\theta_p(w,b)&=\max_{\alpha\geq0} L(w,b,\alpha)
\tag{24}
\end{align}
下标DDD被称为对偶问题,在上式中将minw,b\min_{w,b}minw,b与maxα≥0\max_{\alpha\geq0}maxα≥0的顺序交换一下就变成了对偶问题:
\begin{align}
\max_{\alpha\geq0} \theta_D(\alpha)&=\max_{\alpha\geq0}\min_{w,b} L(w,b,\alpha)\
\theta_D(\alpha)&=\min_{w,b} L(w,b,\alpha)
\tag{25}
\end{align}
弱对偶性(Weak duality)
对于一对原始问题与对偶问题,如果它们都存在最优解,并且分别将其表示为p∗=minw,bθp(w,b)p^*=\min_{w,b}\theta_p(w,b)p∗=minw,bθp(w,b)与d∗=maxα≥0θD(α)d^*=\max_{\alpha\geq0}\theta_D(\alpha)d∗=maxα≥0θD(α),那么它们必定有如下关系:
d∗≤p∗(26)d^*\leq p^*\tag{26}d∗≤p∗(26)
这被称为弱对偶性。有如下证明:
\begin{align}
\theta_D(\alpha)=\min_{w,b} L(w,b,\alpha)\leq L(w,b,\alpha)&\leq \max_{\alpha\geq0} L(w,b,\alpha)=\theta_p(w,b)\
\Longrightarrow \theta_D(\alpha)&\leq\theta_p(w,b)
\tag{27}
\end{align}
也可以这么理解:
maxy∈{0,1}(minx∈{0,1}I{x=y})⏟0≤minx∈{0,1}(maxy∈{0,1}I{x=y})⏟1\max_{y\in\begin{Bmatrix} 0,1 \end{Bmatrix}}\underbrace{(\min_{x\in\begin{Bmatrix} 0,1 \end{Bmatrix}}I\begin{Bmatrix} x=y \end{Bmatrix})}_0 \leq\min_{x\in\begin{Bmatrix} 0,1 \end{Bmatrix}}\underbrace{(\max_{y\in\begin{Bmatrix} 0,1 \end{Bmatrix}}I\begin{Bmatrix} x=y \end{Bmatrix})}_1y∈{0,1}max0(x∈{0,1}minI{x=y})≤x∈{0,1}min1(y∈{0,1}maxI{x=y})
因为它们都有最优解,所以有:
\begin{align}
d^=\max_{\alpha\geq0}\theta_D(\alpha)&\leq \min_{w,b}\theta_p(w,b)=p^\
\Longrightarrow d^&\leq p^
\tag{28}
\end{align}
强对偶性(Strong duality)
对于一对原始问题与对偶问题,w∗,b∗w^*,b^*w∗,b∗是原始问题的解,α∗\alpha^*α∗是对偶问题的解,并且它们满足KKT条件,有d∗=p∗d^*= p^*d∗=p∗。这被称为强对偶性,此时可以通过求解对偶问题得到原始问题的解。
KKT条件如下:
\begin{align}
拉格朗日平稳(Stationarity):\qquad \nabla_{w_i} L(w*,b,\alpha^)&=0,\qquad i=1,2,\cdots,n\
\nabla_{b_i} L(w*,b,\alpha^)&=0,\qquad i=1,2,\cdots,l
\tag{29}
\end{align}
\begin{align}
互补松弛(Complementary \ slackness):\qquad \alpha*_ig_i(w*)=0,\qquad i=1,2,\cdots,k\
\tag{30}
\end{align}
\begin{align}
原始可行性(Primal \ feasibility):\qquad g_i(w^*)\leq 0,\qquad i=1,2,\cdots,k\
\tag{31}
\end{align}
\begin{align}
对偶可行性(Dual \ feasibility):\qquad \alpha^*\geq0,\qquad i=1,2,\cdots,k\
\tag{32}
\end{align}
互补松弛其实已经包含了原始可行性与对偶可行性。
当gi(w∗)<0g_i(w^*)< 0gi(w∗)<0,只有当α∗=0\alpha^*=0α∗=0,互补松弛才成立;
当α∗>0\alpha^*> 0α∗>0,只有当gi(w∗)=0g_i(w^*)= 0gi(w∗)=0,互补松弛才成立。
我们的求解目标经历了以下转化:
\begin{align}
&\qquad 通过几何分析(几何间隔的意义)得到式(15)最初始的目标函数\
&\Longrightarrow 通过几何间隔与函数间隔的关系与一些约束与手段,从式(15)得到常用的且较正规的目标函数式(17),此时它是一个凸函数\
&\Longrightarrow 引入拉格朗日算子将目标函数式(17)变成式(19)的原始问题\
&\Longrightarrow 每个原始问题都有对应的对偶问题,满足KKT条件后对偶问题的解与原始问题的解相等,可通过求解对偶问题式(25)来获得原始问题式(19)的解
\end{align}
经过这一系列转化,结论就是,求解得到对偶问题的解之后,就能得到目标函数的参数w,bw,bw,b,获得最后的SVM分类函数。为什么要绕这么一大圈去求解对偶问题?
一是对偶问题往往比原始问题更容易求解,二是对偶问题有一些优良的结构,可以在内积中自然而然地引入核函数,进而推广到非线性分类问题,而且还可以用软间隔分类器来解决非线性问题。
2.1.3、对偶问题的初步求解
接下来讨论如何求解对偶问题。
回到式(25)的对偶问题:
\begin{align}
\max_{\alpha\geq0} \theta_D(\alpha)=\max_{\alpha\geq0}\min_{w,b} L(w,b,\alpha)
\end{align}
要求解得到最后的参数,对偶问题的求解方法分成两步。
第一步,minw,bL(w,b,α)\min_{w,b} L(w,b,\alpha)minw,bL(w,b,α)。把α\alphaα当成常数,对w,bw,bw,b求L(w,b,α)L(w,b,\alpha)L(w,b,α)的最小值,然后把用α\alphaα表示的w,bw,bw,b代回L(w,b,α)L(w,b,\alpha)L(w,b,α)中,此时的L(w,b,α)L(w,b,\alpha)L(w,b,α)成为了参数α\alphaα的函数,实际上是L(α)L(\alpha)L(α),形式上用W(α)W(\alpha)W(α)表示。
第二步,maxα≥0minw,bL(w,b,α)=maxα≥0W(α)\max_{\alpha\geq0}\min_{w,b} L(w,b,\alpha)=\max_{\alpha\geq0}W(\alpha)maxα≥0minw,bL(w,b,α)=maxα≥0W(α)。对W(α)W(\alpha)W(α)求最大值,此时解出来的α\alphaα是确切的常数,再把这些常数代回第二步中“用α\alphaα表示的w,bw,bw,b”中,即可得到最终的参数w,bw,bw,b。
本小节只做第一步的处理,第二步的处理将在第三章“SVM的求解”中介绍。
对w,bw,bw,b求L(w,b,α)L(w,b,\alpha)L(w,b,α)的最小值的方式是,分别对w,bw,bw,b求偏导,然后让它们的结果为0。
把L(w,b,α)L(w,b,\alpha)L(w,b,α)的原式(见式(19))稍微展开(www被认为是常数 ,所以wT=ww^T=wwT=w):
\begin{align}
L(w,b,\alpha)&=\frac{1}{2}\left | w \right |2-\sum_{i=1}m \alpha_i[y{(i)}(wTx^{(i)}+b )-1]\
&=\frac{1}{2}\left | w \right |2-\sum_{i=1}m \alpha_iy{(i)}wTx{(i)}+b\sum_{i=1}m \alpha_iy{(i)}+\sum_{i=1}m \alpha_i
\tag{33}
\end{align}
对www求偏导可以简单得到:
\begin{align}
\nabla_{w} L(w,b,\alpha)&=w-\sum_{i=1}^m \alpha_iy{(i)}x{(i)}=0\
&\Longrightarrow w=\sum_{i=1}^m \alpha_iy{(i)}x{(i)}
\tag{34}
\end{align}
同样,对bbb求偏导可以得到:
\begin{align}
\nabla_b L(w,b,\alpha)&=\sum_{i=1}^m \alpha_iy^{(i)}=0
\tag{35}
\end{align}
这里,x(i)x^{(i)}x(i)与y(i)y^{(i)}y(i)是样本点,是已知数,所以我们就有了“用α\alphaα表示的w与bw与bw与b”。接下来我们把式(34)与式(35)代回到式(33)中,需要注意的地方是∥w∥2=wTw\left \| w \right \|^2=w^Tw∥w∥2=wTw,其它的正常展开就行,得到:
\begin{align}
L(w,b,\alpha)&=\sum_{i=1}^m \alpha_i-\frac{1}{2}\sum_{i,j=1}^m y{(i)}y{(j)}\alpha_i\alpha_j(x{(i)})Tx^{(j)}=W(\alpha)
\tag{36}
\end{align}
再把(x(i))Tx(j)(x^{(i)})^Tx^{(j)}(x(i))Tx(j)用$ ⟨x{(i)},x{(j)}⟩表示,同时把上面与表示,同时把上面与表示,同时把上面与\alphaKaTeX parse error: {align} can be used only in display mode.w,b,,,w在式(34)中有描述,当我们把在式(34)中有描述,当我们把在式(34)中有描述,当我们把\max_\alpha W(\alpha)求解出来,得到求解出来,得到求解出来,得到\alpha_i配合上样本点,即可计算出配合上样本点,即可计算出配合上样本点,即可计算出w的实际值,那么,的实际值,那么,的实际值,那么,b是如何计算的?这里是是如何计算的?
这里是是如何计算的?这里是b$的计算方法:
b∗=−maxi:y(i)=−1w∗Tx(i)+mini:y(i)=1w∗Tx(i)2(38)b^*=-\frac{\max_{i:y{(i)}=-1}w^{*T} x^{(i)}+\min_{i:y{(i)}=1}w^{*T} x^{(i)}}{2}\tag{38}b∗=−2maxi:y(i)=−1w∗Tx(i)+mini:y(i)=1w∗Tx(i)(38)
再一次把图一贴上来:
到这里,我们完成了minw,bL(w,b,α)\min_{w,b} L(w,b,\alpha)minw,bL(w,b,α)的过程,对偶问题的第一步求解就完成了。要求得截距bbb我们需要知道www,而www需要用α\alphaα计算得到,所以整个SVM分类器的求解只剩下最后一步了。
对偶问题的第二步maxα≥0W(α)\max_{\alpha\geq0}W(\alpha)maxα≥0W(α),求解α\alphaα的介绍将在第三章中进行(第三章中将要求解的是经过优化的W(α)W(\alpha)W(α),不是现在这个),因为接下来要介绍两个内容,核函数与软间隔分类器。
2.2、SVM优化一——引入核函数(Kernel)
2.2.1、核函数的作用
核函数的作用:把原坐标系里线性不可分的数据投影到另一个空间,尽量使得数据在新的空间里线性可分。
为了有一个直观感受可以看这个视频:https://www.youtube.com/watch?v=3liCbRZPrZA
低维空间(这里是二维)里有红色与蓝色两种不同的分类点,可以看到在这里它们线性不可分:
给定了一个特征映射ϕ\phiϕ,我们将相应的核函数定义为:
K(x,z)=⟨ϕ(x),ϕ(z)⟩=ϕ(x)Tϕ(z)(40)K(x,z)=⟨\phi(x),\phi(z)⟩=\phi(x)^T\phi(z)\tag{40}K(x,z)=⟨ϕ(x),ϕ(z)⟩=ϕ(x)Tϕ(z)(40)
这是李航老师《统计学习方法》SVM章节中给出的例子,我来简述一下:
化解计算量问题
将数据映射到高维空间,在高维空间中去寻找线性超平面的这个方式固然好,但是却引来了新的问题。
ϕ(x)\phi(x)ϕ(x)是映射后的数据,一般比原数据更高维,而真正使用的时候,还是在计算它的内积ϕ(x)Tϕ(z)\phi(x)^T\phi(z)ϕ(x)Tϕ(z),这样的计算代价太高昂了。
核函数的一个巧妙之处在于,可以通过计算低维向量内积的平方,得到高维向量的内积,下面是一个例子。
如果我们有一个核函数如下,并且x,zx,zx,z都是nnn维的:
K(x,z)=(xTz)2(43)K(x,z)=(x^Tz)^2\tag{43}K(x,z)=(xTz)2(43)
它可以展开成如下形式:
\begin{align}
K(x,z)&=(xTz)2\
&=\left ( \sum_{i=1}^nx_iz_i\right) \left ( \sum_{j=1}^nx_jz_j\right)\
&=\sum_{i=1}^n \sum_{j=1}^nx_ix_jz_iz_j\
&=\sum_{i,j=1}^n(x_ix_j)(z_iz_j)\
&=\phi(x)^T\phi(z)
\tag{44}
\end{align}
当n=3n=3n=3的时候,有:
x=[x1x2x3],ϕ(x)=[x1x1x1x2x1x3x2x1x2x2x2x3x3x1x3x2x3x3](45)x=\left[ \begin{matrix}x_1 \\ x_2\\x_3\end{matrix}\right],\phi(x)=\left[ \begin{matrix}x_1x_1 \\ x_1x_2\\x_1x_3\\ x_2x_1 \\ x_2x_2\\x_2x_3\\x_3x_1 \\ x_3x_2\\x_3x_3\\\end{matrix}\right]\tag{45}x=x1x2x3,ϕ(x)=x1x1x1x2x1x3x2x1x2x2x2x3x3x1x3x2x3x3(45)
假如式(39)中的映射是式(45)中的ϕ\phiϕ,我们有:
\begin{align}
W(\alpha)&=\sum_{i=1}^m \alpha_i-\frac{1}{2}\sum_{i,j=1}^m y{(i)}y{(j)}\alpha_i\alpha_j⟨\phi(x),\phi(z)⟩\
&=\sum_{i=1}^m \alpha_i-\frac{1}{2}\sum_{i,j=1}^m y{(i)}y{(j)}\alpha_i\alpha_j(xTz)2\
&=\sum_{i=1}^m \alpha_i-\frac{1}{2}\sum_{i,j=1}^m y{(i)}y{(j)}\alpha_i\alpha_j((x{(i)})Tx{(j)})2
\tag{46}
\end{align}
我们的初衷是在更高维的空间(ϕ\phiϕ)中做分类,使得数据更加线性可分,但是此时的时间复杂度变高了,为O(n2)O(n^2)O(n2),但是通过核函数的转换,通过计算低维向量内积的平方(时间复杂度为O(n)O(n)O(n))获得了相同的效果,降低了计算成本,而且这个时间复杂度与原始的式(36)相比是相同的。计算完内积之后得到的是一个常数,对一个常数做平方的代价在现在的计算机中几乎可以忽略不计。
其他核函数
这里再给出一个相似的核函数:
K(x,z)=(xTz+c)2=∑i,j=1n(xixj)(zizj)+∑i=1n(2cxi)(2czi)+c2(47)K(x,z)=(x^Tz+c)^2=\sum_{i,j=1}^n(x_ix_j)(z_iz_j)+\sum_{i=1}^n(\sqrt{2c}x_i)(\sqrt{2c}z_i)+c^2\tag{47}K(x,z)=(xTz+c)2=i,j=1∑n(xixj)(zizj)+i=1∑n(2cxi)(2czi)+c2(47)
同样等n=3n=3n=3时,有:
x=[x1x2x3],ϕ(x)=[x1x1x1x2x1x3x2x1x2x2x2x3x3x1x3x2x3x32cx12cx22cx3c](48)x=\left[ \begin{matrix}x_1 \\ x_2\\x_3\end{matrix}\right],\phi(x)=\left[ \begin{matrix}x_1x_1 \\ x_1x_2\\x_1x_3\\ x_2x_1 \\ x_2x_2\\x_2x_3\\x_3x_1 \\ x_3x_2\\x_3x_3\\\sqrt{2c}x_1 \\ \sqrt{2c}x_2\\\sqrt{2c}x_3\\c\end{matrix}\right]\tag{48}x=x1x2x3,ϕ(x)=x1x1x1x2x1x3x2x1x2x2x2x3x3x1x3x2x3x32cx12cx22cx3c(48)
其更一般的形式为:
K(x,z)=(xTz+c)d(49)K(x,z)=(x^Tz+c)^d\tag{49}K(x,z)=(xTz+c)d(49)
另外,再给出SVM中应用广泛的高斯核(Radial Basis Function ,简称 RBF),也称为径向基函数:
K(x,z)=exp(−∥x−z∥22σ2)(50)K(x,z)=\exp \left(-\frac{\left \| x-z \right \|^2}{2\sigma^2}\right) \tag{50}K(x,z)=exp(−2σ2∥x−z∥2)(50)
它能将原始特征映射到无穷维度,而且它能够衡量xxx与zzz的接近程度。这个径向基函数好像非常神通广大的样子,但是目前来说那是另外一个课题…现在就到这里吧。
核函数有效性判断
关于核函数的有效性判断这里有Mercer定理直接给出结论。
Mercer 定理:**半正定的函数都可以作为核函数。**所谓半正定的函数f(xi,xj)f(x_i,x_j)f(xi,xj),是指拥有训练数据集合(x1,x2,⋯ ,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn),我们定义一个矩阵的元素aij=f(xi,xj)a_{ij} = f(x_i,x_j)aij=f(xi,xj),这个矩阵是n*n的,如果这个矩阵是半正定的,那么f(xi,xj)f(x_i,x_j)f(xi,xj)就称为半正定的函数。
这里是证明:
Mercer定理表明为了证明K是有效的核函数,那么我们不用去寻找ϕ\phiϕ,而只需要在训练集上求出各个KijK_{ij}Kij,然后判断矩阵K是否是半正定(使用左上角主子式大于等于零等方法)即可。
一个直观的理解是:一个向量与自己的内积一定大于等于0。
另外,不只是在SVM中,其他出现了内积的算法中,也可以用核函数代替内积,也是用Mercer定理来证明其有效性。
2.3、SVM优化二——软间隔分类器
对于寻找函数最优值,除了梯度下降(上升),以及牛顿法之外,下面介绍一种新方法:
maxαW(α1,α2,⋯ ,αm)(55)\max_\alpha W(\alpha_1,\alpha_2,\cdots,\alpha_m)\tag{55}αmaxW(α1,α2,⋯,αm)(55)
椭圆代表了二次函数的各个等高线,变量数为2,起始坐标是(2,-2)。图中的直线式迭代优化的路径,可以看到每一步都会向最优值前进一步,而且前进路线是平行于坐标轴的,因为每一步只优化一个变量。
3.2、SMO算法
接下来是SMO算法正儿八经的求解过程。
实际上我是按照这个博客来学习SMO算法的,思路很清晰:
http://blog.youkuaiyun.com/luoshixian099/article/details/51227754
我跟着它的思路与节点把公式推了一遍,验证了一遍的感觉吧…整体求解难度不大,没有特别难以推导的步骤,但是推导的式子太长,我就不把公式写一遍了,而且求解的关键步骤都在这位大大的博客里了。
下面我会把求解思路和当时卡住的地方都描述一下。从这个目标函数开始:
\begin{align}
\max_\alpha \quad &W(\alpha)=\sum_{i=1}^m \alpha_i-\frac{1}{2}\sum_{i,j=1}^m y{(i)}y{(j)}\alpha_i\alpha_j⟨x{(i)},x{(j)}⟩\
\Longrightarrow \ \min_\alpha \quad &\psi(\alpha)=\frac{1}{2}\sum_{i,j=1}^m y_iy_j\alpha_i\alpha_jK(\vec x_i,\vec x_j)-\sum_{i=1}^m \alpha_i
\tag{58}
\end{align}
这个博客里把右式乘了个-1,然后去求其最小值,把上标写成下标,还把⟨x(i),x(j)⟩⟨x^{(i)},x^{(j)}⟩⟨x(i),x(j)⟩用核函数K(x⃗i,x⃗j)K(\vec x_i,\vec x_j)K(xi,xj)写出来,有这些符号上的不同,但是它们是等价的。
3.2.1、进行一次迭代
这里是求解思路:
\begin{align}
&\qquad ①把式(58)展开,只保留未知数\alpha_1与\alpha_2相关的项,其他项用一个常数表示。此时目标函数被视为一个二元函数。\
&\Longrightarrow ②把式(57)带入①中求得的二元函数,消去\alpha_1。此时目标函数被视为一个\alpha_2的一元二次函数。\
&\Longrightarrow ③对\alpha_2的一元二次函数求解。具体方法是对其求导并令其导数为0,求得\alpha_2。\
&\Longrightarrow ④把\alpha_2代回式(57)\alpha_1=(\zeta-\alpha_2y_2)y_1,得到\alpha_1。
\end{align}
好了,这里有α1\alpha_1α1与α2\alpha_2α2了,是不是可以求下一组α3\alpha_3α3与α4\alpha_4α4了?
没有,别忘了这是一个迭代算法,要迭代至这两个值收敛才行。而要迭代就要有迭代前和迭代后的α1\alpha_1α1与α2\alpha_2α2的迭代方式。
⟹⑤用Ei=f(xi)−yi表示预测值与真实值之差,把迭代前后的α2联系起来,经过计算得到α2new,unclipped=α2old+y2(E2−E1)η\Longrightarrow ⑤用E_i=f(x_i)-y_i表示预测值与真实值之差,把迭代前后的\alpha_2联系起来,经过计算得到\alpha_2^{new,unclipped}=\alpha_2^{old}+\frac{y_2(E_2-E_1)}{\eta}⟹⑤用Ei=f(xi)−yi表示预测值与真实值之差,把迭代前后的α2联系起来,经过计算得到α2new,unclipped=α2old+ηy2(E2−E1)
这样就有了新旧α2\alpha_2α2的迭代规则,其中η=K11+K22−2K12\eta=K_{11}+K_{22}-2K_{12}η=K11+K22−2K12。
但是要注意α2new,unclipped\alpha_2^{new,unclipped}α2new,unclipped还不是完全新的迭代值,“unclipped”表示未裁剪。因为还要考虑到约束条件:
\begin{align}
&0\leq\alpha_{i=1,2}\leq C\
&\alpha_1y_1+\alpha_2y_2=\zeta
\tag{59}
\end{align}
上面①到⑤步跟着进行计算就行,但是关于裁剪这一部分我有话要说。