
机器学习Python实践
灯火阑珊不知处
这个作者很懒,什么都没留下…
展开
-
初识机器学习
利用机器学习的预测模型来解决问题共有六个基本步骤,如下 1.定义问题:研究和提炼问题的特征,以帮助我们更好地理解项目的目标。 2.数据理解:通过描述性统计和可视化来分析现有的数据。 3.数据准备:对数据进行格式化,以便于构建一个预测模型。 4.评估算法:通过一定的方法分离一部分数据,用来评估算法模型,并选取一部分代表数据进行分析,以改善模型。 5.优化模型:通过调参和集成算法提升预测结果...原创 2018-06-11 15:08:29 · 266 阅读 · 0 评论 -
回归项目实例
项目模板#Python机器学习项目的模板#1.定义问题#a)导入类库#b)导入数据集#2.理解数据#a)描述性统计#b)数据可视化#3.数据准备#a)数据清洗#b)特征选择#c)数据转换#4.评估算法#a)分离数据集#b)定义模型评估标准#c)算法审查#d)算法比较#5.优化模型#a)算法调参#b)集成算法#6.结果部署#a)预测评估数据...原创 2018-07-06 20:13:33 · 678 阅读 · 0 评论 -
预测模型项目模板
机器学习时针对数据进行自动挖掘,找出数据的内在规律,并应用这个规律来预测新的数据。 分类或回归模型的机器学习项目可以分为以下六个步骤: (1)定义问题 (2)理解数据 (3)数据准备 (4)评估算法 (5)优化模型 (6)结果部署机器学习项目的Python模板#Python机器学习项目的模板#1.定义问题#a)导入类库#b)导入数据集#2.理解数据#a)描述...原创 2018-07-05 15:01:18 · 857 阅读 · 0 评论 -
持久化加载模型
找到一个能够生成高准确度模型的算法不是机器学习最后的步骤,在实际的项目中,需要将生成的模型序列化,并将其发布到生产环境中。当有新数据出现时,需要反序列化已保存的模型,然后用其预测新的数据。 a.模型序列化和重用的重要性 b.如何通过pickle来序列化和反序列化机器学习的模型 c.如何通过joblib来序列化和反序列化机器学习的模型1.通过pickle序列化和反序列化机器学习的模型 p...原创 2018-07-05 13:57:24 · 373 阅读 · 0 评论 -
集成算法和算法调参
1.集成算法 三种流行的集成算法的方法: 1.装袋(Bagging)算法:先将训练集分离成多个子集,然后通过各个子集训练多个模型 2.提升(Boosting)算法:训练多个模型并组成一个序列,序列中的每一个模型都会修正前一个模型的错误。 3.投票算法:训练多个模型,并采用样本统计来提高模型的准确度1.1装袋算法 装袋算法是一种提高分类准确率的算法,通过给定组合投票的方式获得最优解。装...原创 2018-07-04 20:04:18 · 1451 阅读 · 0 评论 -
算法比较和自动流程
1.算法比较 比较不同算法的准确度,选择合适的算法,在处理机器学习的问题时是非常重要的。 a.如何设计一个实验来比较不同的机器学习算法 b.一个可以重复利用的,用来评估算法性能的模板 c.如何可视化算法的比较结果1.1选择最佳的机器学习算法 每种模型都有各自适合处理的数据特征,通过交叉验证等抽样验证方式可以得到每种模型的准确度,并选择合适的算法。通过这种评估方式,可以找到一种或两种最...原创 2018-07-03 22:27:15 · 317 阅读 · 0 评论 -
审查分类算法及审查回归算法
1.审查分类算法 算法审查时选择合适的机器学习算法的主要方法之一。审查算法前并不知道哪个算法对问题最有效,必须设计一定的实验进行验证,从而找到对问题最有效的算法。 1.1算法审查 审查算法前没有办法判断哪个算法对数据集最有效,能够生成最优模型,必须通过一系列实验判断出哪些算法对问题有效,然后再进一步来选择算法。这个过程被叫做算法审查。 在选择算法时,应该换一种思路,不是...原创 2018-07-03 16:17:17 · 1194 阅读 · 0 评论 -
评估算法与算法评估矩阵
要知道算法模型对未知数据表现如何,最好的评估办法是利用已经明确知道结果的数据运行生成的算法模型进行验证。此外,还可以采用重新采样评估的方法,使用新的数据来评估算法模型。 1.评估算法的方法 在评估机器学习算法的时候,为什么不将训练数据集直接作为评估数据集,最直接的原因是过度拟合,不能有效地发现算法模型中的不足。过度拟合是指为了得到一致假设变得过度严格。避免过度拟合是分类器设计中的一...原创 2018-07-02 15:46:08 · 2659 阅读 · 0 评论 -
文本分类实例
Python机器学习项目的模板1.定义问题 a)导入类库 b)导入数据集from sklearn.datasets import load_filesfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfVectorize...原创 2018-07-08 20:39:43 · 3085 阅读 · 1 评论 -
数据预处理与数据特征选定
特征工程是建立高准确度机器学习算法的基础,使用正确的特征来构建正确的模型,以完成既定的任务。数据预处理需要根据数据本身的特性进行,有不同的格式和不同的要求,有缺失值要填,有无效数据的要剔除,有冗余维的要选,这些步骤都和数据本身的特性紧密相关。数据预处理大致分为三个步骤:数据的准备,数据的转换,数据的输出。数据处理是系统工程的基本环节,也是提高算法准确度的有效手段。因此,为了提高算法模型的准确度...原创 2018-06-30 17:22:39 · 741 阅读 · 0 评论 -
数据导入和数据理解以及数据可视化
1.CSV文件: CSV文件是用逗号(,)分隔的文本文件,在数据导入之前,通常会审查CSV文件中的内容。通常注意以下几个方面。1.1文件头 如果CSV的文件里包括文件头的信息,可以很方便地使用地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息,需要自己手动设定读入文件地字段属性名称。数据导入时,设置字段属性名称,有助于提高数据处理程序地可读性。1.2.文件...原创 2018-06-12 21:07:02 · 1251 阅读 · 0 评论 -
Python和SciPy速成
1.Python速成 1.1基本数据类型和赋值运算 字符串#字符串data = 'Hello world!'print(data[0])print(data[1:5])print(len(data))print(data)空值 在Python中,每一种数据类型都是对象,空值是Python中的一个特殊值,用None表示,表示该值是一个空对象。可以将None赋值给任何变量,...原创 2018-06-11 20:59:50 · 766 阅读 · 0 评论 -
二分类实例
导入数据import numpy as npfrom matplotlib import pyplotfrom pandas import read_csvfrom pandas.plotting import scatter_matrixfrom pandas import set_optionfrom sklearn.preprocessing import Standard...原创 2018-07-07 19:01:14 · 2753 阅读 · 0 评论