
机器学习
文章平均质量分 93
凌岸_鸿
梦里不知身是客 一晌贪欢
展开
-
机器学习实战中如何加载kNN模块
首先,我们创建名为kNN.py的python模块。from numpy import * import operatordef createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labels我们直接引用这个模块是会报错的原创 2017-04-07 13:44:00 · 9924 阅读 · 2 评论 -
第8章 机器学习实战之线性回归
第二部分 回归写在前面:回归是监督学习的方法的延续。 监督学习指的是有目标变量或预测目标的机器学习方法 。 回归与分类的不同,就在于其目标变量是连续数值型 。分类输出的是标称型类别值。主要内容: ● 线性回归 ● 局部加权线性回归 ● 岭回归和逐步线性回归 ● 预测鲍鱼年龄和玩具售价分类的目标变量是标称型数据,下面我们会对连续型的数据做出预测。8.1 用线性回归找到最佳原创 2017-11-09 09:35:41 · 1416 阅读 · 0 评论 -
第9章 机器学习实战之树回归
主要内容: CART算法 回归与模型树 树剪枝算法主要内容 ● CART算法 ● 回归与模型树 ● 树剪枝算法 ● python中GUI的使用当数据有众多特征的时候且特征之间的关系十分复杂的时候,构建全局变量的想法就太难了。生活中许多实际问题都是非线性的,不可能全部使用全局线性模型来拟合数据。 我们可以利用树回归和回归法来切分数据,如果首次切分难以拟合模型就继续切分。原创 2017-11-10 00:32:49 · 628 阅读 · 0 评论 -
sklearn.model_selection.train_test_split随机划分训练集和测试集
train_x:所要划分的样本特征集 train_y:所要划分的样本结果 test_size:样本占比,如果是整数的话就是样本的数量 random_state:是随机数的种子。 随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。 随机数的产生取决于种子,随机数和原创 2017-10-18 15:20:03 · 1903 阅读 · 0 评论 -
机器学习之支持向量机(六)
主要内容: ● 简单介绍支持向量机 ● 利用SMO进行优化 ● 利用核函数进行空间转换 ● 将SVM和其他分类器进行比对支持向量机(support vector machines,SVM),SVM有很多实现,我们现在来讲讲最流行的一种实现,即序列最小化(sequential minimal optimization,SMO)算法。6.1 基于最大间隔分隔数据 ● 优点:原创 2017-09-20 15:55:50 · 1233 阅读 · 0 评论 -
机器学习之AdaBoost元算法(七)
主要内容: ● 组合相似的分类器来提高分类器性能 ● 应用AdaBoost算法 ● 处理非均衡问题分类问题打个比方, 做重要决定的时候, 大家可能会汲取多个专家而不是一个人的意见。机器学习处理处理问题的时候,也是如此,这就是元算法的思路。 元算法是对其他算法进行组合的一种方式。7.1 基于数据集多重抽样的分类器 前面介绍了五种不同的算法,各有优缺点。我们可以将不同的分类器组合起原创 2017-09-25 09:42:24 · 3563 阅读 · 1 评论 -
机器学习之Logistic回归(五)
主要内容 ● Sigmoid函数和Logistoc回归分类器 ● 最优化理论初步 ● 梯度下降最优化算法 ● 数据中的缺失项处理我们将介绍最优化算法,并利用他们训练出一个非线性函数用于分类。利用Logistic回归的主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。 “回归”一词源于最佳拟合,表示要找到最佳拟合参数,使用的是最优化算法。Logistic回归一原创 2017-08-24 11:24:45 · 956 阅读 · 0 评论 -
机器学习之朴素贝叶斯(四)
主要内容:·使用概率分布进行分类 ·学习朴素贝叶斯分类器 ·解析RSS源数据 ·使用朴素贝叶斯来分析不同地区的态度概率论是机器学习算法的基础,所以深刻理解概率论这个主题就十分重要。4.1 基于贝叶斯决策理论的分类方法朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类问题。 缺点:对于输入的数据的准备方式较为敏感。 适用数据类型:标称型数据。 我们先来了解一下贝叶斯决策理论。假设我们现在原创 2017-08-19 14:46:33 · 1503 阅读 · 0 评论 -
机器学习之决策树(三)
正方形代表判断模块(decision block) ,椭圆代表终止模块(terminating block),表示已经得到结论,可以终止运动。决策树的优势在于数据形式容易理解。决策树的很多任务都是为了数据中所蕴含的知识信息。决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些机器从数据集中创造的规则。3.1决策树的构造优点:计算复杂度不高,输出结果易于理解,对中间值的缺原创 2017-07-20 17:53:38 · 1115 阅读 · 0 评论 -
第10章 利用K-均值聚类算法对未标注数据分组
写在前面关于无监督学习: 在无监督学习中,类似分类和回归的目标变量事先是不存在的。与前面的“对于输入数据X能预测变量Y”的不同是,这个要回答的问题是:“从数据X能发现什么?构成X的最佳6个数据簇都是哪些?”或者“X中哪三个特征是最频繁共现的?”本章内容: ● K-均值聚类算法 ● 对聚类得到的簇进行后处理 ● 二分K-均值聚类算法 ● 对地理位置进行聚类聚类是一种无监督的学原创 2017-12-05 10:21:28 · 790 阅读 · 0 评论