
机器学习
2034丶
这个作者很懒,什么都没留下…
展开
-
机器学习:非监督学习算法:K-means
非监督学习:K-means假设通过上面的图片人物穿着,来判断一个人的类别。把有相近的特征的人分为一个类别。K-means 聚类先将数据进行划分,全部为蓝色,然后通过聚类划分为三个类别。理解k-means:图:假设这个数据有两个特征x1,x2,对这一群数据进行聚类,这时候就有一个K值(把数据划分为几个类别),根据K值进行聚类。步骤:1.随机在数据当中抽取三个样本,当做三个类别...原创 2019-12-12 21:47:23 · 435 阅读 · 0 评论 -
机器学习:逻辑回归
逻辑回归:线性回归的式子作为的输入(二分类问题)逻辑回归应用场景:(也能得出概率值)广告点击率判断用户的性别预测用户是否会购买给定的商品类判断一条评论是正面的还是负面的是否垃圾邮件,金融诈骗,虚假账号…线性回归到逻辑回归:通过sigmoid函数观察sigmoid函数得出,将输入转为0-1的值,正好是概率值。逻辑回归公式:e:2.71z=回归的结果输出:[0,1]区间的概...原创 2019-12-12 09:53:30 · 503 阅读 · 0 评论 -
机器学习:模型的保存与加载
模型的保存和加载API:from sklearn.externals import joblib保存:joblib.dump(rf, ‘test.pkl’)加载:estimator=joblib.load(‘test.pkl’)例子:from sklearn.datasets import load_bostonfrom sklearn.linear_model import ...原创 2019-12-11 09:42:30 · 652 阅读 · 0 评论 -
机器学习:过拟合和欠拟合:岭回归
过拟合与欠拟合过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合:一个假设在训练数据上不能获得更好的拟合, 但是在训练数据外的数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)模型复杂度数据的特征和目标值之间的关系,不仅仅是线性关系。欠拟...原创 2019-12-10 15:07:51 · 638 阅读 · 0 评论 -
机器学习:线性回归
线性回归预测结果与真实值是有一定的误差一个特征:单变量多个特征:多变量预测结果和真实值肯定存在偏差损失函数(误差大小)如何去求模型当中的W,使得损失最小(目的是找到最小损失对应的W值):最小二乘法之正规方程:通常方法:最小二乘法之梯度下降:我们以单变量中的w0,w1为例子:理解:沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后更新W值使用:面对训练数据...原创 2019-12-10 14:31:28 · 214 阅读 · 0 评论 -
机器学习:线性回归定义和矩阵的运算
回归算法-线性回归定义和矩阵的运算回归问题的判定:目标在一个区间是连续型的应用场景比如说:房价预测,销售额的预测,贷款额度预测…假设如图:从图中我们可以看到,房子面积越大,价格越贵,就像一条直线,我们称之为线性关系。单个特征线性方程:y=kx+b多个特征线性方程:k1房子面积+k2房子位子+k3房子年龄线性关系模型试图学得一个通过属性的线性组合来进行预测的函数:f(x)=w_1...原创 2019-12-10 11:28:31 · 579 阅读 · 0 评论 -
机器学习:随机森林(集成学习方法)
集成学习方法-随机森林集成学习方法:集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。随机森林:定义:在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林建立多个决策树过程:学习算法根据下列算法而建造每棵树:...原创 2019-12-10 10:02:44 · 535 阅读 · 0 评论 -
机器学习:决策树的划分依据
决策树的划分依据之一 信息增益特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:注:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度信息熵的计算:条件熵的计算:注:C_k表示属于某个类别的样本数例子:结论:决策树的分类依据之一: 信息增益常见其他决策树使用的算法:ID3信息增益...原创 2019-12-05 10:33:16 · 2832 阅读 · 0 评论 -
机器学习:决策树之信息论基础(信息熵)
决策树之信息论基础决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法理解:决策树例子:银行贷款数据这里给了一个例子我们怎么去判断有个用户是否可以给贷款。我们可以这样划分:但是决策树的实际划分是:我们有一个最主要的划分点。那就是房产。再看一个例子:了解信息的度量和作用假设这里有32支球队,我们没有任何信...原创 2019-12-04 22:28:29 · 927 阅读 · 0 评论 -
机器学习:模型选择与调优
模型选择与调优1、交叉验证2、网格搜索交叉验证(为了让被评估的模型更加准确可信)之前把数据分为训练集和测试集,交叉验证为了让模型更加可信,所有这时候我们会把训练集分为训练集和验证集,在训练集中训练,然后通过验证集看预测模型的精度。然后求四个模型的准确率的平均值这里分成了四等分,就是4折交叉验证交叉验证过程:交叉验证:将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,其...原创 2019-12-04 21:54:06 · 570 阅读 · 0 评论 -
机器学习:分类模型的评估
分类模型的评估比如说 评判两个小米手机和iPhone手机是否好用,对于一个东西进行评判的时候,就需要使用分类模型评估。混淆矩阵在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)比如说对猫和狗这个二分类问题,正例:猫 ,反例:不是猫的。这两者之间就构成了混淆矩阵。预测出是猫就是真正例(...原创 2019-12-04 21:13:41 · 252 阅读 · 0 评论 -
机器学习:朴素贝叶斯算法
朴素贝叶斯算法:特征独立(常用在文档分类)对类别进行划分。预测一个类别在所有类别中的概率,然后根据大小进行划分。比如说:如图概率基础:概率定义为一件事情发生的可能性扔出一个硬币,结果头像朝上某天是晴天联合概率和条件概率联合概率:包含多个条件,且所有条件同时成立的概率记作:P(A,B)条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率记作:P(A|B)特性:P(A1,...原创 2019-12-04 16:27:28 · 330 阅读 · 0 评论 -
机器学习:分类算法(离散型)K-近邻算法
K-近邻算法这里有一张图片,我们可以通过一些条件或者特征找到相近的电影类型。这是简单的k-近邻算法的思想分类算法-k近邻算法(KNN)定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法重点:计算距离公式两个样本的距离可以通过如下公式计算,又叫欧式距离...原创 2019-12-02 16:18:50 · 2012 阅读 · 0 评论 -
机器学习:数据的划分和介绍
数据集划分机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效sklearn数据集划分API:sklearn.model_selection.train_test_split-sklearn.datasets加载获取流行数据集-datasets.load_*()获取小规模数据集,数据包含在datasets里-datas...原创 2019-11-29 16:05:38 · 1143 阅读 · 0 评论 -
机器学习:算法简介以及开发流程
算法以及开发流程明确的几点问题:1.算法是核心,数据和计算是基础2. 找准定位,知道算法原理,学会运用。3.学会分析问题,使用机器学习算法的目的,在什么情况下运用。4.掌握算法的基本思想,学会对问题用相应的算法解决。5.学会利用库和框架解决问题。算法判别依据数据类型判断:离散型数据:分类:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部是整数,而且不能在细分,...原创 2019-11-29 14:55:42 · 1833 阅读 · 0 评论 -
机器学习:降维案例(探究用户物品类别喜好细分降维)
探究用户物品类别喜好细分降维数据:数据是在kaggle中找的。https://www.kaggle.com/c/instacart-market-basket-analysis/dataproducts.csv 商品信息order_products__prior.csv 订单与商品信息orders.csv ...原创 2019-11-29 11:40:20 · 1267 阅读 · 2 评论 -
机器学习:数据降维(特征选择和主成分分析)
数据降维这里需要注意,我们当前说的降维是特征的数量,比如说四个特征我们可以说是四维特征,不是数组的降维。数据降维就是把特征数量进行减少。数据降维方式:1.特征选择2.主成分分析1.特征选择:特征选择:选择部分特征当做机器学习的相关数据。特征选择原因:冗余:部分特征的相关度高,容易消耗计算性能噪声:部分特征对预测结果有负影响特征选择的主要方法:主要方法(三大武器):Filte...原创 2019-11-28 22:14:08 · 2596 阅读 · 1 评论 -
机器学习:数据特征预处理(缺失值处理)
缺失值处理 API: sklearn.preprocessing.Imputer缺失值的处理一般使用pandas处理,这里scikit-learn也有方法,就介绍一下scikit-learn的方法。缺失值处理方法:删除插补如果每列或者行数据缺失值达到一定的比例,建议放弃整行或者整列可以通过缺失值每行或者每列的平均值、中位数来填充建议按每一列的特征进行填补Imp...原创 2019-11-28 14:58:43 · 759 阅读 · 0 评论 -
机器学习:数据特征预处理(归一化以及标准化对比)
数据特征预处理通过特定的统计方法(数学方法)将数据转换成算法要求的数据第一,二组数据:3个样本,四个特征。通过预处理变成其它的特征。数值型数据:标准缩放1.归一化2.标准化3.缺失值类别型数据:one-hot编码时间类型:时间的切分sklearn 特征处理API:-sklearn.preprocessing归一化:API: sklearn.preprocessing.Min...原创 2019-11-28 13:17:52 · 5373 阅读 · 1 评论 -
机器学习:特征工程
特征工程特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性原创 2019-11-28 10:07:32 · 231 阅读 · 0 评论 -
监督学习算法:一些样本数据集
一些样本数据集我会使用一些数据集来说明不同的算法。其中一些数据集很小,而且是模拟的,其目的就是强调算法的某个特定方面。一个模拟的二分类数据集示例是forge数据集,它有两个特征。下列代码将绘制一个散点图,将此数据集上的点可视化。图像以第一个特征为x轴,第二个特征为y轴。正如其它散点图那样,每个数据点对应对应图像中的一点。每个点的颜色和形状对应其类别。...原创 2019-11-27 10:33:27 · 1660 阅读 · 0 评论 -
监督学习:分类与回归、泛化、过拟合和欠拟合
分类与回归监督学习分类主要是分为两种分类与回归。分类问题是预测类别标签。上一篇文章中说过,就是将鸢尾花分到三个可能的品种之一。分类问题中我们一般分为二分类(在两个类别中进行区分的一种特殊情况)还有就是多分类(在两个以上的类别中进行分类)二分类就相当于是对问题的是非判断。在二分类问题中,我们通常分为正类和反类,在这里的“正”代表的是研究对象,比如说我们判断邮件是否为垃圾邮件的时候,“正”肯能就...原创 2019-11-26 11:54:30 · 1330 阅读 · 0 评论 -
第一个应用:鸢尾花分类
鸢尾花分类一、应用描述假设一个人对鸢尾花的品种很感兴趣。他收集了每朵鸢尾花的测量数据:花瓣的长度和宽度以及花萼的长度和宽度,所有的测量数据都是厘米。但是已经有科研人员对大量的鸢尾花进行过测量。把鸢尾花分为了三类。但我们的目标是构建一个机器学习的模型,可以从已知的品种中预测出新的鸢尾花品种。从已知到未知,所以这是一个监督学习问题。在这个问题中,我们要在多个选项中预测其中一个鸢尾花的种类。所...原创 2019-11-22 16:18:05 · 829 阅读 · 0 评论 -
机器学习的一般过程
机器学习的一般过程数据处理数据收集 (数据检索、数据挖掘、爬虫)数据清洗机器学习选择模型 (算法)训练模型 (算法)评估模型 (工具、框架、算法知识)测试模型业务运维应用模型维护模型机器学习的基本问题1)回归问题:根据已知的输入和输出寻找某种性能最佳的模型,将未知输出的输入代入模型,得到连续的输出。2)分类问题:根据已知的输入和输出寻找某种性能最佳的模型,将...原创 2019-11-20 22:17:27 · 2592 阅读 · 0 评论 -
浅谈机器学习
浅谈机器学习机器学习是什么:机器学习是一门能够让编程计算机从数据中学习的计算机科学。一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E增加而增加,那么这样计算机程序就被称为机器学习系统。自我完善,自我增进,自我适应。机器学习就是从数据中提取知识。它是统计学,人工智能和计算机科学研究的交叉领域,也被称为预测分析和统计学。为什么学习...原创 2019-11-20 22:12:32 · 275 阅读 · 0 评论