SVM
线性可分支持向量机
一.线性可分
二.间隔
1.函数间隔
函数间隔可以表示分类预测的正确性及确信度
但若成比例地该边w和b,超平面没有改变,函数间隔却变为原来的两倍,所以要对分离超平面的法向量w加些约束,如规范化
2.几何间隔
3.两者关系
三.硬间隔最大化
支持向量机的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,对于线性可分的数据集,线性可分超平面有无穷多个,但几何间隔最大的分离超平面是唯一的
间隔最大化:表示以充分大的确信度对训练数据进行分类,也就是说,不仅将正负实例点分开,而且对于最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开
1.约束最优化问题
2.线性可分支持向量机
相关算法:
3.支持向量和间隔边界
支持向量:在线性可分的情况下,训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量
在决定分离超平面时只有支持向量起作用,而其他实例点不起作用。支持向量的个数一般很少,所以支持向量机由很少的“重要的”训练样本确定。
4.对偶算法
(1)求对w,b的极小
(2)对α的极大
得到等价形式
(3)结果
(4)算法描述
(5)支持向量
线性支持向量机
1.软间隔最大化
2.线性支持向量机
3.对偶问题
算法描述:
核函数
前面的讨论中,假设训练样本实现线性可分的,然而在现实任务中,原始样本空间内也许并不能存在一个能正确划分两类样本的超平面。
防止过拟合
https://www.jianshu.com/p/9b03cac58966
svm中解决过拟合问题.
(1)数据扩增
(2)减少特征维度,维度太高,进行降维
(3)引入松弛变量,SVM特有的
参考:
(1)李航《统计学习方法》
(2)周志华《机器学习》