
机器学习
woshinia
这个作者很懒,什么都没留下…
展开
-
第一章 机器学习基础
机器学习 概述机器学习 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。 1. 海量的数据 2. 获取有用的信息机器学习 场景例如:识别动物猫模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫。机器学习(数据学习):人们通过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,得到结论,从而判断它就是猫。深度学习(深入数据):人们通过深入了...转载 2018-03-22 16:33:22 · 274 阅读 · 0 评论 -
第9章 树回归
树回归 概述我们本章介绍 CART(Classification And Regression Trees, 分类回归树) 的树构建算法。该算法既可以用于分类还可以用于回归。树回归 场景我们在第 8 章中介绍了线性回归的一些强大的方法,但这些方法创建的模型需要拟合所有的样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法就显得太难了,也略显笨拙。而且,实...转载 2018-03-22 16:35:34 · 357 阅读 · 0 评论 -
第8章 预测数值型数据:回归
回归(Regression) 概述我们前边提到的分类的目标变量是标称型数据,而回归则是对连续型的数据做出处理,回归的目的是预测数值型数据的目标值。回归 场景回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。假如你想要预测兰博基尼跑车的功率大小,可能会这样计算:HorsePower = 0.0015 * annualSalary - 0.99 * hoursListen...转载 2018-03-22 16:35:26 · 991 阅读 · 0 评论 -
第7章 集成方法、随机森林
集成方法: ensemble method(元算法: meta algorithm) 概述概念:是对其他算法进行组合的一种形式。通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。 机器学习处理问题时又何尝不是如此? 这就是集成方法背后的思想。集成方法:投票选举(bagging: 自举汇聚法 bootstrap aggregating): 是基于数据随机重抽样分类器构造的...转载 2018-03-22 16:35:12 · 634 阅读 · 0 评论 -
第6章 支持向量机
支持向量机 概述支持向量机(Support Vector Machines, SVM):是一种机器学习算法。 支持向量(Support Vector)就是离分隔超平面最近的那些点。 机(Machine)就是表示一种算法,而不是表示机器。支持向量机 场景要给左右两边的点进行分类明显发现:选择D会比B、C分隔的效果要好很多。支持向量机 原理SVM 工作原理对于上述的苹果和香蕉,我们想象为2种水果类型的...转载 2018-03-22 16:35:17 · 363 阅读 · 0 评论 -
第5章 Logistic回归
Logistic 回归 概述Logistic 回归虽然名字叫回归,但是它是用来做分类的。其主要思想是: 根据现有数据对分类边界线建立回归公式,以此进行分类。须知概念Sigmoid 函数回归 概念假设现在有一些数据点,我们用一条直线对这些点进行拟合(这条直线称为最佳拟合直线),这个拟合的过程就叫做回归。进而可以得到对这些点的拟合直线方程,那么我们根据这个回归方程,怎么进行分类呢?请看下面。二值型输出...转载 2018-03-22 16:34:26 · 571 阅读 · 0 评论 -
第4章 基于概率论的分类方法:朴素贝叶斯
朴素贝叶斯 概述贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。贝叶斯理论 & 条件概率贝叶斯理论我们现在有一个数据集,它由两类数据组成,数据分布如下图所示:我们现在用 p1(x,y) 表示数据点 (x,y) 属于类别 1(图中用圆点表示的...转载 2018-03-22 16:34:18 · 713 阅读 · 0 评论 -
第3章 决策树
决策树 概述决策树(Decision Tree)算法主要用来处理分类问题,是最经常使用的数据挖掘算法之一。决策树 场景一个叫做 "二十个问题" 的游戏,游戏的规则很简单:参与游戏的一方在脑海中想某个事物,其他参与者向他提问,只允许提 20 个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小待猜测事物的范围,最后得到游戏的答案。一个邮件分类系统,大致工作流程如下:首先检测发送邮件...转载 2018-03-22 16:34:06 · 382 阅读 · 0 评论 -
第2章 k-近邻算法
KNN 概述k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。k 近邻算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k 近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻算法不具有显式的学习...转载 2018-03-22 16:33:46 · 568 阅读 · 0 评论 -
第 10 章 K-Means(K-均值)聚类算法
K-Means 算法聚类是一种无监督的学习, 它将相似的对象归到一个簇中, 将不相似对象归到不同簇中.相似这一概念取决于所选择的相似度计算方法.K-Means 是发现给定数据集的 K 个簇的聚类算法, 之所以称之为 K-均值 是因为它可以发现 K 个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成.簇个数 K 是用户指定的, 每一个簇通过其质心(centroid), 即簇中所有点的中心来描述...转载 2018-03-22 16:35:40 · 711 阅读 · 0 评论