SVM学习笔记

本文介绍了SVM(支持向量机)的核心概念,包括寻找最大边际的超平面,线性可分与不可分情况的处理,以及支持向量的重要角色。通过非线性映射和核方法解决线性不可分问题,SVM以支持向量为基础,具有抗过拟合能力。拉格朗日乘子法在模型推导中起到关键作用。常用核函数包括线性、多项式和高斯核,各有优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 SVM寻找区分两类的超平面,使边际最大。

2 线性可区分,线性不可区分

3 所有坐落在边际两边的超平面上的点被称为支持向量。

4 最大边际距离为2/||W||   (其中||W||为向量范数)

5 SVM特点

5.1 训练好的模型的算法复杂度是由支持向量的个数决定的,而不是由数据维度决定的,所以SVM不太容易产生过拟合。

5.2 SVM训练出的模型完全依赖于支持向量,即使训练集里面所有的非支持向量都去除,重复训练过程,仍然会得到同样的模型。

5.3 一个SVM如果训练出的支持向量的个数比较少,SVM训练出的模型比较容易泛化。

6 线性不可分解决办法

(1)利用一个非线性的映射,把原数据集中的向量点转化到一个更高维度的空间中。

(2)在这个高纬度的空间中找一个线性的超平面来根据线性可分的情况处理。

7 如何利用非线性映射将原数据映射到高维空间?

参照彭亮老师视频

8 核方法(解决内积运算复杂度高的问题)

9 拉格朗日

参考唐宇迪老师视频 看公式推导

问答题

1 一句话总结支持向量机算法的最大特点

答:SVM的最大特点是能构造出最大间距的决策边界,从而提高分类算法的鲁棒性。

2 在支持向量机里,为什么吧类别标识定义为[-1,1]?

答:为了让数学表达尽量简洁。详见《scikit-learn 机器学习》中P136.

3 什么是松弛系数,它有什么作用?

答:数据样本违反最大间距规则的程度。

4 一句话总结什么是核函数?什么是相似性函数?二者有什么关系?

答:核函数定义为特征向量的内积;

       相似性函数是特征映射函数。

5 常用的核函数有哪些?分别有什么特点?

答:线性函数,多项式核函数,高斯核函数

       线性函数:直接计算两个输入特征向量的内积。

                        优点:简单、运算效率高,因为不涉及复杂的变换;结果易解释,因为总能生成一个最简洁的线性分隔超平面。

                         缺点:对线性不可分的数据集没有很好的办法。

       多项式核函数:通过多项式来作为特征映射函数。

                      优点:可以拟合出复杂的分隔超平面。

                      缺点:可选参数太多,选择一组合适的参数比较困难;

                                多项式阶数不宜太高,否则会给模型求解带来一些计算困难。

      高斯核函数:可以把输入特征映射到无限多维。

                     优点:比线性核函数功能上强大很多,并且没有多项式核函数的数值计算那么困难,因为它计算出来的值在[0,1]。

                               参数容易选择。

                     缺点:不容易解释,因为映射到无限多维向量空间不直观;

                               计算速度慢;

                               容易造成过拟合,原因是映射到无限维向量空间是非常复杂的模型,它会试图拟合所有的样本。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值