
机器学习实战
Silvia+
这个作者很懒,什么都没留下…
展开
-
机器学习算法三——基于概率论的分类方法:朴素贝叶斯(2)(示例:使用朴素贝叶斯过滤垃圾邮件)
示例:使用朴素贝叶斯过滤垃圾邮件首先,将文本解析成词条;然后,和前面的分类代码集成为一个函数,该函数在测试分类器的同时会给出错误率。一、准备数据:切分文本下面介绍如何从文本文档中构建自己的词列表。1、对于一个文本字符串,可以使用python的string.split()方法将其切分:def test(): mySent = 'This book is the best book ...原创 2019-02-28 21:05:38 · 719 阅读 · 0 评论 -
机器学习算法四——Logistic回归(1)
本章内容⚫Sigmoid函数和Logistic回归分类器⚫最优化理论初步⚫梯度下降最优化算法⚫数据中的缺失项处理假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称为回归。Logistic回归进行分类的主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。训练分类器的做法就是寻找最佳拟合参数,使用的是最优化算法。一、基于Logist...原创 2019-03-10 19:20:20 · 436 阅读 · 0 评论 -
机器学习算法三——基于概率论的分类方法:朴素贝叶斯(3)(示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向)
示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向我们将分别从美国的两个城市中选取一些人,通过分析这些人发布的征婚广告信息,来比较这两个城市的人们在广告用词上是否不同。如果结论确实是不同,那么他们各自常用的词是哪些?从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解?...原创 2019-03-09 10:57:31 · 644 阅读 · 0 评论 -
机器学习算法一——k-近邻算法(1)
机器学习算法一——k-近邻算法(1)采用测量不同特征值之间的距离方法进行分类。kNN工作原理:训练样本集中每个数据有一个一一对应的所属分类的标签。需要分类的新数据没有标签,将新数据的每个特征与样本集中数据对应的特征进行比较,然后将样本集中与其特征最相似(最近邻)的数据标签作为新数据的标签。一般来说,我们选择样本集中前k个最相似的数据(通常k<=20)中,出现次数最多的,作为新数据的分类...原创 2019-01-23 14:21:57 · 223 阅读 · 0 评论 -
机器学习算法一——k-近邻算法(2)(改进约会网站)
机器学习算法一——k-近邻算法(2)使用k-近邻算法改进约会网站的配对效果1、准备数据:从文本文件中解析数据数据样本存放在文本文件datingTestSet.txt中,主要包含3种特征:每年获得的飞行常客里程数玩视频游戏所耗时间百分比每周消费的冰淇淋公升数将文本记录到转换NumPy的解析程序###从文本文件中解析数据def file2matrix(filename): ...原创 2019-01-29 16:39:19 · 612 阅读 · 1 评论 -
机器学习算法一——k-近邻算法(3)(手写识别系统)
机器学习算法一——k-近邻算法(3)使用k-近邻算法的手写识别系统需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小:宽高是32像素x32像素的黑白图像。尽管采用文本格式存储图像不能有效地利用内存空间,但是为了方便理解,我们还是将图像转换为文本格式。1、准备数据:将图像转换为测试向量目录trainingDigits中包含了大约2000个例子(每个数字大约200个样本);目录te...原创 2019-01-31 23:35:43 · 213 阅读 · 0 评论 -
机器学习算法二——决策树(1)(决策树的构造)
机器学习算法二——决策树(1)下图构造了一个假想的邮件分类系统:前面介绍的k-近邻算法可以完成很多分类任务,但它最大的缺点是无法给出数据的内在含义,决策树的主要优势就在于数据形式非常容易理解。决策树很多任务都是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些机器从数据集中创造的规则。专家系统中经常使用决策树,而且决策树给出...原创 2019-02-13 17:06:23 · 657 阅读 · 0 评论 -
机器学习算法二——决策树(2)(使用matplotlib绘制树形图)
在Python中使用Matplotlib注解绘制树形图本节将学习如何编写代码绘制如下图所示的决策树。1、Matplotlib注解Matplotlib提供了一个注解工具annotations,非常有用,可以在数据图形上添加文本注释。注解通常用于解释数据的内容。#使用文本注解绘制树节点import matplotlib.pyplot as plt#定义文本框和箭头格式decisio...原创 2019-02-21 15:53:26 · 1701 阅读 · 0 评论 -
机器学习算法二——决策树(3)(测试和存储分类器)+(隐形眼镜示例)
测试和存储分类器这节重点学习如何利用决策树执行数据分类。我们将使用决策树构建分类器,以及实际应用中如何存储分类器。1、测试算法:使用决策树执行分类在执行数据分类时,需要决策树以及用于构造树的标签向量。然后,程序比较测试数据与决策树上的数值,递归执行该过程直到进入叶子节点;最后,将测试数据定义为叶子节点所属的类型。#使用决策树的分类函数def classify(inputTree,feat...原创 2019-02-22 16:50:28 · 619 阅读 · 0 评论 -
机器学习算法三——基于概率论的分类方法:朴素贝叶斯(1)
若要求分类器给出“该数据实例属于哪一类”的明确答案,可能会产生错误结果。这时,可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。“朴素”:整个形式化过程只做最原始、最简单的假设。一、基于贝叶斯决策理论的分类方法朴素贝叶斯(贝叶斯决策理论的一部分)优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。...原创 2019-02-25 18:55:36 · 766 阅读 · 0 评论 -
机器学习算法四——Logistic回归(2)(示例:从疝气病症预测病马的死亡率)
示例:从疝气病症预测病马的死亡率数据包含368个样本和28个特征。疝病是描述马胃肠痛的术语。然而,这种病不一定源自马的胃肠问题,其他问题也可能引发马疝病。该数据集中包含了医院检测马疝病的一些指标,**有的指标比较主观,有的指标难以测量,例如马的疼痛级别。**除此之外,还存在一个问题,数据集中有30%的值是缺失的。下面将首先介绍如何处理数据集中的数据缺失问题,然后再利用Logistic回归和随...原创 2019-03-10 21:15:20 · 2685 阅读 · 0 评论