
Python 机器学习
了解Python 机器学习Scikit-Learn框架的使用,特征工程分析、机器学习的常见算法。重点讲解了K-近邻、线性回归、朴素贝叶斯、决策树、K-均值算法。并且介绍了每种算法的使用场景与经典案例实践。学习完此课程完全可以胜任机器学习工作岗位也为后续深度学习打下坚实基础
lsqzedu
专注Python、区块链技术文章分享
展开
-
01_人工智能与机器学习概念介绍
文章目录人工智能 > 机器学习 > 深度学习什么是机器学习特征值与目标值机器学习与深度学习的区别人工智能 > 机器学习 > 深度学习人工智能:流水线机器其实就是人工智能。机器学习:垃圾邮箱机器学习,需要自动过滤算法、今日头条数据推荐 深度学习:2010至今。机器学习包含深度学习 (可以理解为高级的机器学习),例如 图形图像识别、自然语言处理。什么是机器学习...原创 2019-08-19 17:41:36 · 1379 阅读 · 0 评论 -
02_归一化、标准化
文章目录特征工程定义与实现归一化实现标准化实现特征工程定义与实现特征工程定义:是将原始数据转化为更好的代表预测模型的潜在问题的特征的过程,从而提高了未知数据的预测准确性。数据和特征决定了机器学习的上限,而模型和算法知识逼进这个上限而已数值类型预处理:1:标准化缩放、归一化时间类型:时间的序列、切分类别类型数据:one-hot编码PCA进行主特征分析 (过滤关联性较弱的特征,提升...原创 2019-08-19 17:54:51 · 474 阅读 · 0 评论 -
03_分词、One-hot编码
jieba分词器“结巴”中文分词:做最好的 Python 中文分词组件,支持 3 种分词模式:精确模式、全模式、搜索引擎模式可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.l...原创 2019-08-19 18:03:58 · 930 阅读 · 0 评论 -
08_手写多项式回归
文章目录多项式回归场景创建待分析的样本多项式预测样本多项式回归场景直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析研究一个因变量与一个或多个自变量间多项式的回归分析方法...原创 2019-08-19 20:28:50 · 552 阅读 · 0 评论 -
07_线性回归的缺点
文章目录单项式缺点构建单项式回归单项式缺点y = wx + b 这种单项式在数学模型中表示一根直线,但是生产环境中很多的数据例如股票,销售涨跌它都是曲线结构的,这就会导致单项式的线性回归预测率低构建单项式回归大家可以看到,单项式线性回归在可视化中生成的就是一条直线,直线的情况下预测曲线的真实数据是非常低的,因此一章节我们就来看如何采用多项式预测曲线数据import numpy ...原创 2019-08-19 20:20:39 · 4353 阅读 · 0 评论 -
06_线性回归极简案例
文章目录使用模型的步骤训练本质就是找权重与偏置测试集与绝对值误差使用模型的步骤Sklearn 把所有机器学习的模式整合统一起来了,学会了一个模式就可以通吃其他不同类型的学习模式导入模块读入数据建立模型训练与测试训练本质就是找权重与偏置import numpy as npimport pandas as pdfrom sklearn.model_selection im...原创 2019-08-19 20:02:11 · 214 阅读 · 0 评论 -
05_sklearn机器学习框架
文章目录sklearn库简介加载数据区分测试集训练集sklearn库简介Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一Classification 分类Regression 回归Clustering 非监督分类Dimensionality reduction 数据降维Model Selection 模型选择Prepro...原创 2019-08-19 19:51:43 · 379 阅读 · 0 评论 -
04_线性回归原理介绍
文章目录机器学习分类线性回归原理线性回归定义机器学习分类机器学习的主要任务便是聚焦于两个问题:分类和回归分类相信大家都不会陌生,生活中会见到很多的应用,比如垃圾邮件识别、信用卡发放等等,就是基于数据集,作出二分类或者多分类的选择回归会给出一个具体的结果,例如房价的数据,根据位置、周边、配套等等这些维度,给出一个房价的预测机器学习在不同的维度会有不同的划分,最普遍的划分大致可以分...原创 2019-08-19 19:40:29 · 346 阅读 · 0 评论 -
15_交叉验证与网格搜索
文章目录为什么使用交叉验证交叉验证原理分析交叉验证与网格搜索为什么使用交叉验证交叉验证用于评估模型的性能预测,尤其是训练好的模型在新数据上的表现可以在一定程度上减少过拟合 可以从有限的数据中获取尽可能多的有效信息评估的正确率相对更稳定交叉验证原理分析交叉验证,将拿到的训练数据,分为训练集和验证集 (总数据 = (训练集 (训练集 + 验证集) + 测试集),例如:可以将数据分成...原创 2019-08-26 23:27:39 · 675 阅读 · 0 评论 -
14_K近邻识别图形图像
文章目录K近邻识别图片PCA主成分分析采用PCA降维提示运算效率K近邻识别图片在本篇文章中我们使用sklearn中自带的手写数字数据集(digits),这个数据集中并没有图片,而是经过提取得到的手写数字特征和标记,就免去了我们的提取数据的麻烦,但是在实际的应用中是需要我们对图片中的数据进行提取的from sklearn.model_selection import train_test...原创 2019-08-26 23:20:06 · 498 阅读 · 0 评论 -
13_K近邻极简案例
文章目录K-近邻算法介绍K近邻数据样本分析K-近邻快速入门K-近邻算法介绍K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的...原创 2019-08-26 23:13:33 · 216 阅读 · 0 评论 -
12_模型保存与加载
文章目录模型保存与加载机器学习正确率线性回归总结模型保存与加载训练好的模型可以先保存起来,下一次可以使用时直接加载即可,这样既节省了时间也提高了效率from sklearn.externals import joblibtry: lr = joblib.load("../data/lr.pkl") print('已加载现有模型')except: lr = L...原创 2019-08-26 23:06:46 · 222 阅读 · 0 评论 -
11_模型可解释性与可视化
文章目录线性回归可解释性模型特征的可视化房间数与房价正相关散点图空气指标与房价逆相关散点图线性回归可解释性可解释性,则说明对于模型的结果我们是可以理解的,我们不但知道正确率,我们还知道正确率怎么来的,在生成环境中我们可能会通过模型的可及时性获取与之相关的特征,这样可以使的我们样本更具有训练意义print(lr.coef_,lr.intercept_)# 默认的排序结果是从小到大排序,...原创 2019-08-26 23:31:42 · 757 阅读 · 0 评论 -
10_多项式与过拟合
文章目录多项式回归介绍Numpy实现多项式一次多项式生成的直线图二次多项式生成的曲线图多项式回归介绍直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析。Numpy实现多项...原创 2019-08-26 23:32:28 · 529 阅读 · 0 评论 -
09_线性回归预测房价
文章目录波士顿房价数据集背景介绍获取scikit-learn框架数据集创建机器学习模型获取测试集正确率波士顿房价数据集背景介绍波士顿房价数据集是统计的20世纪70年代中期波士顿郊区房价的中位数,统计了当时教区部分的犯罪率、房产税等共计13个指标,统计出房价,试图能找到那些指标与房价的关系。本例子明显的是属于回归模型的案例。在数据集中包含506组数据,其中404是训练样本,剩下的102组数据作...原创 2019-08-26 21:37:40 · 553 阅读 · 1 评论