#数据挖掘学习之路
##第一本书-统计学习方法第二版
###1.感知机
(1)感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1值
(2)感知机学习的目的是求出将训练数据进行线性划分的分离超平面
(3)感知机学习的算法分为原始形式和对偶形式,如图
(4)感知机预测是用学习得到的感知机模型对新的输入实例进行分类
(5)感知机模型(如图),是一种线性分类模型,属于判别模型
(6)数据集的线性可分性----存在某个超平面s能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧。
(7)感知机的学习策略是定义(经验)损失函数并将损失函数极小化,即在假设空间中选取使损失函数式最小的模型参数w,b
###k近邻法
(1)k近邻算法:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
(2)k近邻模型,模型是由三个基本要素组成:距离度量,k值的选择和分类决策规则决定。
a.在距离度量中,特征空间中两个实例点的距离是两个实例点相似程度的反映
b.k值的选择对k近邻法的结果产生重大影响,k值的减小意味着整体模型变得复杂,容易发生过拟合,k值的增大就意味着整体的模型变得简单,因此在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k
c.在k近邻法中的分类决策规则往往是多数表决,即由输入实例的k个邻近的实例中的多数类绝对输入实例的类。
(3)k邻近法的实现----kd树
a. kd树:一种对k维空间实例点进行存储以便对其进行快读检索的树形数据结构
b.构造kd树的算法,如图
c.kd树的最近邻搜索算法,如图
数据挖掘入门:感知机与k近邻法
1124

被折叠的 条评论
为什么被折叠?



