数据挖掘week5

垆边人似月v

于 2021-11-03 08:35:02 发布

阅读量297

点赞数

分类专栏：数据挖掘课程笔记文章标签：数据挖掘支持向量机机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_44169095/article/details/121113469

版权

数据挖掘课程笔记专栏收录该内容

7 篇文章

订阅专栏

                              支持向量机

什么是SVM，SVM产生的意义
1.1什么是SVM？
SVM(Support Vector Machine)译为支持向量机，又名最大间隔分类器。它不是一种机器，而是一种机器学习算法。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。
支持向量机方法是建立在统计学理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中，以期获得最好的泛化能力。
1.2SVM产生的意义
SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。
1）小样本，指的是与问题的复杂度相比，SVM要求的样本数相对较少；
2）非线性，指的是SVM擅长应付样本数据线性不可分的情况，主要通过核函数和松弛变量来实现，这一块是SVM的精髓；
3）高维，指的是样本维数很高，因为SVM产生的分类器很简洁，但算法用到的样本信息很少，仅仅用到支持向量。
4）由于分类器仅由支持向量决定，SVM还能够有效避免过拟合。
大间距分类的含义
支持向量机也叫做大间距分类器，最本质的含义就是最显著的划分不同类别的数据，如图1所示，假设数据样本集中存在两个类别的数据，这两个类别的数据分隔的足够开，因此很容易就可以在二维图中画出一条直线将两类数据点分开，这组数据被称为线性可分（linearly separable）数据。而最大间距分类负责的事情就是找到距离两组数据最大距离的分界线（三维空间内为分界面），也就是图1中的黑线。这一分界线也称为分隔超平面（separating hyperplane）。其存在的意义在于：数据点离决策边界越远，最后的预测结果也就越可信，模型的鲁棒性也就更强。寻找分隔超平面的方法在于，找到离分隔超平面最近的点，这些点就是支持向量（support vector），接下来最大化支持向量到分隔面的距离，这一过程就被称为大间距分类。
核函数
3.1.线性核函数

数据集如下图
在这里插入图片描述

线性核函数分类效果如下
在这里插入图片描述

3.2.高斯核函数（RBF核函数）
在这里插入图片描述

高斯核函数代码
在这里插入图片描述

数据集如下图所示
在这里插入图片描述

高斯核函数分类结果如下图
在这里插入图片描述

3.3.多项式核函数
在这里插入图片描述

多项式核函数代码
在这里插入图片描述

数据集如下图所示
在这里插入图片描述

多项式核函数分类结果如下图
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。