这次的主题是SVM,大体还可以,对偶那里日后补充

本文深入探讨了支持向量机(SVM)的基本原理及其在实际应用中的实现过程。包括最大间隔的意义、间隔最大化的数学表达及求解方法,并介绍了拉格朗日乘数法的应用、SMO算法以及软间隔与核函数的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实在不想latex敲公式,我在白纸上写了拍照传上来,凑合着看吧哎哟喂,多图预警,字丑预警(一万年不写字了)!
  • 大家都知道SVM是寻找最大间隔,为什么?我没研究过风险理论,一般这么说,间隔越大,分类错误概率的上限越低,直观来说,分类器鲁棒性越强。那个上限好像是和最大间隔成反比,公式我忘了……

    如何寻找最大间隔,听上去就是一个最优化,满足分类正确(约束条件s.t.)情况下的间隔最大化(max)

  • 问题1,大家都习惯写作间隔为2/||w||,分割线为wx+b=0,两条边界线为wx+b=1和wx+b=-1,其实我纳闷过的,讲道理你一条写作wx+b=r,一条写作wx+b=-r,这样我还信,为啥偏偏是1?
    其实是等价的,如图总是能转化为=1的那种情况
    这里写图片上述描述

  • 最优化形式的理解
    约束条件很明显,分类正确而已;
    目标函数,分类间隔最大。
    原始目标函数带根号,在分母上不方便求解,转化形式,得到等价的最优化形式
    (另类理解,因为分类正确,loss function惩罚部分=0,剩下L2正则)
    这里写图片描述
    这里,目标函数凸函数,约束条件凸,凸优化
    采用拉格朗日乘子(KKT),转化为对偶函数求解。
    为什么这么做,因为对偶函数容易求解
    (1)原来优化->minmax优化,这是拉格朗日乘子去约束条件的方式,想补充最优化的我贴一个链接,http://www.cnblogs.com/90zeng/p/Lagrange_duality.html,这里补充一点这里“转化等价”的细节解释,若w、b满足约束,则原min优化和新minmax优化同解;若不满足约束,两者都可以看做无解(换句话说,minmax有解,则min优化同解,若minmax无解,则原优化不满足约束条件,也是无解)
    (2) minmax->maxmin优化,这是与凸函数的对偶函数同解。弱对偶性是一个不等式关系,在+凸函数这个条件时,弱对偶性升级为强对偶性,不等式那里可以取到等号。

  • 进一步求解
    这里写图片描述
    约束条件现在只有一个α>0,且里层没有约束条件,直接求导(必要条件),凸函数(还是个二次)升级为充要条件,求解之后消去w、b得到α的二次规划问题。

  • 这里先不着急求解,先看下之前的一个问题
    这里写图片描述
    原优化取得最优化的必要条件,KKT条件,其中某一项直接点名了支持向量的数学由来
    通俗的说:你画那条中间间隔的直线(超平面)的时候,影响你的不过是两个区域(正类和负类)的边界上的点,很多点对你都没造成影响;
    换句话说,在求解这个最优间隔的过程中,很多点的信息都没有用上

  • 接着上面求解
    这里写图片描述
    在周志华老师的书上,我看到了一种SMO算法求解那个α二次规划,据说比常规二次规划要快;
    每次求一个变量的最优,如此迭代直至收敛,听上去莫不是就是坐标下降?

    另外对于软间隔,突然感觉之前的一切推导都是一个特例,软间隔是更加一般化的情况,loss function=惩罚+L2正则

    -核函数kernel
    这里写图片描述
    通俗的说,比如两个同心圆,大圆是正类,小圆是反类,在二维平面上让你找一个直线(线性分类器,最大间隔)将两者有效隔开,很难;但是你用某个函数z=x1^2+x2^2可以发现,在三维空间上,大圆在上面,小圆在下面,你可以用一个平面分隔开。

本期就到这里啦,哎哟,吃坏了肚子,上吐下泻,瞬间感觉人就虚了,话说有些最优化的东西,我也不是很666,请专业人士指教。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值