这次的主题是SVM，大体还可以，对偶那里日后补充

本文深入探讨了支持向量机(SVM)的基本原理及其在实际应用中的实现过程。包括最大间隔的意义、间隔最大化的数学表达及求解方法，并介绍了拉格朗日乘数法的应用、SMO算法以及软间隔与核函数的概念。

实在不想latex敲公式，我在白纸上写了拍照传上来，凑合着看吧哎哟喂，多图预警，字丑预警（一万年不写字了）！

大家都知道SVM是寻找最大间隔，为什么？我没研究过风险理论，一般这么说，间隔越大，分类错误概率的上限越低，直观来说，分类器鲁棒性越强。那个上限好像是和最大间隔成反比，公式我忘了……

如何寻找最大间隔，听上去就是一个最优化，满足分类正确（约束条件s.t.）情况下的间隔最大化（max）
问题1，大家都习惯写作间隔为2/||w||，分割线为wx+b=0，两条边界线为wx+b=1和wx+b=-1，其实我纳闷过的，讲道理你一条写作wx+b=r，一条写作wx+b=-r，这样我还信，为啥偏偏是1？
其实是等价的，如图总是能转化为=1的那种情况
最优化形式的理解
约束条件很明显，分类正确而已；
目标函数，分类间隔最大。
原始目标函数带根号，在分母上不方便求解，转化形式，得到等价的最优化形式
（另类理解，因为分类正确，loss function惩罚部分=0，剩下L2正则）

这里，目标函数凸函数，约束条件凸，凸优化
采用拉格朗日乘子（KKT），转化为对偶函数求解。
为什么这么做，因为对偶函数容易求解
（1）原来优化->minmax优化，这是拉格朗日乘子去约束条件的方式，想补充最优化的我贴一个链接，http://www.cnblogs.com/90zeng/p/Lagrange_duality.html，这里补充一点这里“转化等价”的细节解释，若w、b满足约束，则原min优化和新minmax优化同解；若不满足约束，两者都可以看做无解（换句话说，minmax有解，则min优化同解，若minmax无解，则原优化不满足约束条件，也是无解）
（2） minmax->maxmin优化，这是与凸函数的对偶函数同解。弱对偶性是一个不等式关系，在+凸函数这个条件时，弱对偶性升级为强对偶性，不等式那里可以取到等号。
进一步求解

约束条件现在只有一个α>0，且里层没有约束条件，直接求导（必要条件），凸函数（还是个二次）升级为充要条件，求解之后消去w、b得到α的二次规划问题。
这里先不着急求解，先看下之前的一个问题

原优化取得最优化的必要条件，KKT条件，其中某一项直接点名了支持向量的数学由来
通俗的说：你画那条中间间隔的直线（超平面）的时候，影响你的不过是两个区域（正类和负类）的边界上的点，很多点对你都没造成影响；
换句话说，在求解这个最优间隔的过程中，很多点的信息都没有用上
接着上面求解

在周志华老师的书上，我看到了一种SMO算法求解那个α二次规划，据说比常规二次规划要快；
每次求一个变量的最优，如此迭代直至收敛，听上去莫不是就是坐标下降？

另外对于软间隔，突然感觉之前的一切推导都是一个特例，软间隔是更加一般化的情况，loss function=惩罚+L2正则

-核函数kernel

通俗的说，比如两个同心圆，大圆是正类，小圆是反类，在二维平面上让你找一个直线（线性分类器，最大间隔）将两者有效隔开，很难；但是你用某个函数z=x1^2+x2^2可以发现，在三维空间上，大圆在上面，小圆在下面，你可以用一个平面分隔开。