- 博客(8)
- 收藏
- 关注
原创 统计学习方法笔记——第五章 决策树
决策树是一种基本的分类与回归的方法,这里只讨论其分类过程。 分类决策树模型由结点和有向边组成,结点分为内部结点和叶结点,内部结点代表代表一个特征或属性,叶结点代表分类结果。根节点包含着所有的属性,从根节点开始,对实例通过某一特征进行测试,根据测试结果将实例分配到其子节点,如此递归地生成一棵决策树。 最后的决策树可用if-then规则来描述。对于三个特征的样本,从根节点到叶结点的...
2018-04-12 15:41:22
300
原创 统计学习方法笔记——第四章 朴素贝叶斯法
朴素贝叶斯法是一种分类方法,基于两个条件:①贝叶斯定理;②特征条件之间相互独立的假设。掌握朴素贝叶斯法的思想,需先掌握概率论的相关内容:条件概率,联合概率分布,先验概率,后验概率,独立性,贝叶斯公式等。1.1 朴素贝叶斯法的基本原理朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y),具体地:①先学习先验概率分布,其中Ck代表不同的类别;②再学习条件概率分布,即在已知类别的条件下,属于某个特...
2018-04-12 10:59:38
448
原创 统计学习方法笔记——第三章 K近邻法
K近邻法(KNN)是一种基本的分类与回归的方法,这里只介绍其分类问题。KNN算法的基本思想:对于一个新的输入数据点,在训练集中找到与它距离最近的K个点,若这K个点中大部分属于A类,则该数据点也属于A类。算法流程:特殊地,若K=1,则相当于离输入实例最近的一个样本实例直接决定了它的类别。KNN模型的三要素:距离度量、K值选择、分类决策规则。距离度量:数据点之间的距离有很多度量标准,一般来说可概括为下...
2018-04-12 10:16:50
286
原创 统计学习方法笔记——第二章 感知机(2)
补充关于线性可分数据集,感知机学习算法的收敛性证明。引入符号:,相当于对权值向量w扩充了一维,用b来扩充。 ,相当于对输入向量x扩充了一维,用1来扩充。则显然: 现已知有一个线性可分的数据集,即存在一个超平面,能将其中所有的数据点都正确地分类。现要证明这个算法是收敛的,即能通过有限次的迭代将这个超平面求出来。 对于该超平面,通过对系数的适当放缩,可使得权...
2018-04-10 14:19:29
264
原创 统计学习方法笔记——第二章 感知机(1)
1.1 基本概念 感知机是一个二分类的线性分类模型,输入为特征向量,输出为对该特征向量的预测类别,取1或者-1。 感知机的形式化定义: 其中:①sign(x)为符号函数,若x≥0,则函数值为1,否则为-1; ②wx+b中,w叫权值向量,b叫偏置值,wx+b=0称为感知机的分离超平面。如在二维坐标系中,wx+b=0代表一条直线,将平面分成两部分,在三维...
2018-04-10 10:59:12
254
原创 统计学习方法笔记——第一章 统计学习方法概论(3)
1 模型选择与评估 一个模型,若对数据的预测值与真实值很接近,那么便是一个好的模型。换句话说,好的模型对数据的预测能产生更小的误差。而误差分为两种:基于训练集的训练误差和基于测试集的测试误差。 训练误差反映的是一个问题是否容易学习,而测试误差才反映了模型对未知数据的预测能力,即测试误差小的模型,它的预测能力也必定更好。对于未知数据的预测能力,我们也称为泛化能力。2 过拟合问题 ...
2018-04-08 16:50:46
336
原创 统计学习方法笔记——第一章 统计学习方法概论(2)
1.1 统计学习三要素 统计学习方法=模型+策略+算法1.1.1 模型 上一节已介绍过,在监督学习过程中,模型就是要学习的条件概率分布或者决策函数,假设空间中包含了所有可能得模型,通常有无数种。 当模型分别为决策函数时,假设空间的表达形式为: ,X和Y分别定义在为输入空间和输出空间上的变量。 或者 ,参数向量的表达形式。 同理,当模型为条件概率分布...
2018-04-08 14:28:09
263
原创 统计学习方法笔记——第一章 统计学习方法概论(1)
1.1 基本概念 统计学习是计算机基于数据构建概率统计模型并用该模型进行预测与分析的一门学科,也称统计机器学习。 统计学习的特点:建立在计算机网络之上,以数据为驱动进行建模并预测分析的一门学科。是概率论、统计学、信息论、最优化等多领域相结合的交叉学科。 统计学习的对象:数据。 统计学习的目的:通过概率建模来挖掘已知数据中蕴含的内在规律,并以此来指导对未知数据的预测与分析。...
2018-04-08 10:29:23
207
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人