1.决策边界
支持向量机是一种分类算法,可以二分类,也可以多分类,重点在于决策边界的选取,要选出来离雷区最远的(雷区就是边界上的点),如下图所示,优先选择右边的图。即在满足分类的前提下,使得边界越宽越好。

2.距离的计算
要计算一些地雷离决策边界的距离,可以将决策边界看作一个平面,平面方程为W(T)x+b=0,两个x是平面上的点,W是平面的法向量。

要计算点到平面的距离,其实就是在平面是取一个点,然后计算出投影即可。经过推到得到以下距离公式:

3.数据标签定义
数据集已经给出,当X为正例的时候,Y=+1,当X为负例的时候,Y=-1,然后将决策方程变换一下。

4.优化目标
优化目标通俗解释就是找到一条线(w和b),使得离该线最近的点(雷区)最远

我们可以通过放缩变换,是得min右边的式子>=1,那么最小值就是1,于是就可以得到我们的目标函数,然后用拉格朗日乘子法进行计算得结果。
![]()
5.支持向量机名字由来
所有边界上的样本点0 ,对结果有影响,所有非边界上的点
=0,对结果无影响,即只有边界上的样本点是有用的,所有边界上
0是支持向量, 所有非边界上的点
=0不是支持向量。
支持向量:真正发挥作用的数据点,值不为0的点。
如下图60个样本点和120个样本点实则构造出来的决策边界是一样的,因为边界上的点还是那几个点,其余不在边界上的点对结果是没有什么影响的。

6.软间隔问题
软间隔:有时候数据中有一些噪音点,如果考虑他们咱们的线就不太好了。

之前的方法我们要求要把两类点完全分的开,这个要求太严格了,我们可以放松一下,于是为了解决该问题,我们引入松弛因子。那么新的目标函数如下:

C是一个参数,当C趋于很大时,意味着分类严格不能有错误,当C趋于很小时,意味着可以有更大的错误容忍。
7.核变换
核变换:核变换用来解决低维不可分问题,既然低维的时候不可分,我们就把他映射到高维图像上。
使用核函数的好处就是可以在低维空间去完成高维度样本内积的计算。

本文介绍了支持向量机(SVM)的核心概念,包括如何选取最优的决策边界以最大化分类间隔,计算样本点到决策平面的距离,以及数据标签的定义。SVM的目标是找到使最近样本点距离最远的分类超平面。此外,讨论了支持向量的含义,即影响分类的边界样本点。还提到了软间隔处理噪声数据的方法,以及通过引入松弛因子优化目标函数。最后,阐述了核变换在解决低维不可分问题中的作用,允许在低维空间进行高维计算。
991

被折叠的 条评论
为什么被折叠?



