实在不想latex敲公式,我在白纸上写了拍照传上来,凑合着看吧哎哟喂,多图预警,字丑预警(一万年不写字了)!
大家都知道SVM是寻找最大间隔,为什么?我没研究过风险理论,一般这么说,间隔越大,分类错误概率的上限越低,直观来说,分类器鲁棒性越强。那个上限好像是和最大间隔成反比,公式我忘了……
如何寻找最大间隔,听上去就是一个最优化,满足分类正确(约束条件s.t.)情况下的间隔最大化(max)
问题1,大家都习惯写作间隔为2/||w||,分割线为wx+b=0,两条边界线为wx+b=1和wx+b=-1,其实我纳闷过的,讲道理你一条写作wx+b=r,一条写作wx+b=-r,这样我还信,为啥偏偏是1?
其实是等价的,如图总是能转化为=1的那种情况
最优化形式的理解
约束条件很明显,分类正确而已;
目标函数,分类间隔最大。
原始目标函数带根号,在分母上不方便求解,转化形式,得到等价的最优化形式
(另类理解,因为分类正确,loss function惩罚部分=0,剩下L2正则)
这里,目标函数凸函数,约束条件凸,凸优化
采用拉格朗日乘子(KKT),转化为对偶函数求解。
为什么这么做,因为对偶函数容易求解
(1)原来优化->minmax优化,这是拉格朗日乘子去约束条件的方式,想补充最优化的我贴一个链接,http://www.cnblogs.com/90zeng/p/Lagrange_duality.html,这里补充一点这里“转化等价”的细节解释,若w、b满足约束,则原min优化和新minmax优化同解;若不满足约束,两者都可以看做无解(换句话说,minmax有解,则min优化同解,若minmax无解,则原优化不满足约束条件,也是无解)
(2) minmax->maxmin优化,这是与凸函数的对偶函数同解。弱对偶性是一个不等式关系,在+凸函数这个条件时,弱对偶性升级为强对偶性,不等式那里可以取到等号。进一步求解
约束条件现在只有一个α>0,且里层没有约束条件,直接求导(必要条件),凸函数(还是个二次)升级为充要条件,求解之后消去w、b得到α的二次规划问题。这里先不着急求解,先看下之前的一个问题
原优化取得最优化的必要条件,KKT条件,其中某一项直接点名了支持向量的数学由来
通俗的说:你画那条中间间隔的直线(超平面)的时候,影响你的不过是两个区域(正类和负类)的边界上的点,很多点对你都没造成影响;
换句话说,在求解这个最优间隔的过程中,很多点的信息都没有用上接着上面求解
在周志华老师的书上,我看到了一种SMO算法求解那个α二次规划,据说比常规二次规划要快;
每次求一个变量的最优,如此迭代直至收敛,听上去莫不是就是坐标下降?另外对于软间隔,突然感觉之前的一切推导都是一个特例,软间隔是更加一般化的情况,loss function=惩罚+L2正则
-核函数kernel
通俗的说,比如两个同心圆,大圆是正类,小圆是反类,在二维平面上让你找一个直线(线性分类器,最大间隔)将两者有效隔开,很难;但是你用某个函数z=x1^2+x2^2可以发现,在三维空间上,大圆在上面,小圆在下面,你可以用一个平面分隔开。
本期就到这里啦,哎哟,吃坏了肚子,上吐下泻,瞬间感觉人就虚了,话说有些最优化的东西,我也不是很666,请专业人士指教。