
机器学习
逆光mlz
这个作者很懒,什么都没留下…
展开
-
决策树与随机森林超详细笔记 原理与方法
一、决策树1、决策树 1.决策树是一种树形结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。 2.决策树的学习是以实例为基础的归纳学习 3.决策树学习采用的是自顶向下的递归方法,其基本方法是以信息熵为度量构造亦可熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点的实例都属于同一类。2、决策树学习算法的特点 1.决策树学习算法的...原创 2018-12-02 17:28:36 · 3293 阅读 · 6 评论 -
吴恩达机器学习配套作业2.1逻辑回归 python实现
在这部分的练习中,你将建立一个逻辑回归模型来预测一个学生是否能进入大学。假设你是一所大学的行政管理人员,你想根据两门考试的结果,来决定每个申请人是否被录取。你有以前申请人的历史数据,可以将其用作逻辑回归训练集。对于每一个训练样本,你有申请人两次测评的分数以及录取的结果。为了完成这个预测任务,我们准备构建一个可以基于两次测试评分来评估录取可能性的分类模型。import numpy as np i...原创 2019-08-14 15:19:38 · 302 阅读 · 0 评论 -
吴恩达机器学习配套作业1.1多变量线性回归 python实现
在本部分的练习中,需要预测房价,输入变量有两个特征,一是房子的面积,二是房子卧室的数量;输出变量是房子的价格。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('D:\yuxin\data_sets\ex1data2.txt',header=None,names=[...原创 2019-08-14 09:01:35 · 487 阅读 · 0 评论 -
吴恩达机器学习配套作业1.0单变量线性回归 python实现
在本部分的练习中,您将使用一个变量实现线性回归,以预测食品卡车的利润。假设你是一家餐馆的首席执行官,正在考虑不同的城市开设一个新的分店。该连锁店已经在各个城市拥有卡车,而且你有来自城市的利润和人口数据。您希望使用这些数据来帮助您选择将哪个城市扩展到下一个城市import numpy as npimport matplotlib.pyplot as pltimport pandas as p...原创 2019-08-14 08:55:16 · 453 阅读 · 0 评论 -
EM算法基于sklearn 处理鸢尾花数据实战
今天我们用EM算法对鸢尾花数据进行分类处理,EM算法的原理较为复杂,我会总结之后再发出来。我们先来实战看一下EM算法的强大之处。EM算法是无监督的分类,而我们的鸢尾花数据是已知类别的,所以我们在处理时直接忽略掉类别之一列,任务三个特征是符合三个独立的高斯分布混合得到,仅仅通过分析特征数据的均值、方差,来判断出这三个类别。1.首先导入包import numpy as npfrom sklea...原创 2018-12-11 11:22:57 · 7923 阅读 · 7 评论 -
SVM—支持向量机处理不均衡数据实战
前面讲到随机森林和逻辑回归对较为均衡的数据的处理效果都很不错,那么对于不均衡的数据,比如某一个特征占绝大多数,而另一个特征仅仅只有很少一点。对于这种数据,用SVM去处理是较为方便的。下面直接通过代码来介绍1.首先导入包import numpy as npfrom sklearn import svmimport matplotlib.colorsimport matplotlib.py...原创 2018-12-06 20:36:03 · 4210 阅读 · 1 评论 -
提升boosting之Adaboost算法原理
AdaBoost实则是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类学习方法。具体过程如下:1.设训练数据集T2.初始化训练数据的权值分步3.使用具有权值分步为Dm的训练数据集学习,得到基本分类器4.计算GM(x)在训练数据集上的误差率5.计算GM(x)的系数6.更新训练数据集的权值分步7.注意 这里的Zm是规范化因子 目的是使权值和为18.构建基本分类...原创 2018-12-03 20:47:08 · 192 阅读 · 0 评论 -
K-Means聚类进行图像处理实战
在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。1. K-Means类概述在scikit-learn中,包括两个K-Means的算法,一个是传统的K-Means算法,对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法,对应的类是MiniBatchK...原创 2018-12-08 21:29:00 · 4817 阅读 · 0 评论 -
密度聚类之DBSCAN算法原理
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。1. 密度聚类原理DBSCAN是一种...原创 2018-12-08 09:48:44 · 2468 阅读 · 0 评论 -
聚类之K-Means算法原理
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。1. K-Means原理初探K-Means算法的思...转载 2018-12-07 20:27:05 · 648 阅读 · 0 评论 -
逻辑回归处理鸢尾花数据实战
自己在尝试用逻辑回归处理鸢尾花数据时,遇到了很多坑,在这里分享一下代码和作图原理。1.首先导入包: import numpy as np from sklearn.linear_model import LogisticRegression import matplotlib.pyplot as plt import matplotlib as mpl from sklearn ...原创 2018-12-01 21:24:34 · 2241 阅读 · 0 评论 -
线性回归原理及简单代码实现
一、概述:初次接触机器学习,发现最困难的一点是对于各种算法的理解,本系列博客将总结自己学到的机器学习相关算法以及简单的代码实现。首先是回归算法的相关心得。二、线性回归:1.定义:线性回归在假设特证满足线性关系,根据给定的训练数据训练一个模型,并用此模型进行预测。为了了解这个定义,我们先举个简单的例子;我们假设一个线性方程 Y=2x+1, x变量为商品的大小,y代表为销售量;当月份x =5时...原创 2018-12-01 10:52:25 · 558 阅读 · 0 评论 -
Logistic回归与softmax回归算法原理
Logistic回归参数估计1.一般不用线性回归做分类Logistic回归实则是对数的线性回归2.将θ套上一层sigmoid函数 再得到目标函数得到目标函数为:取对数,化简。再对θ求偏导:3.Logistic回归参数的学习规则:可以发现与线性回归的结论很相似:不同之处在于Logistic回归的h(x)为套上了一层sigmoid函数的θ,其sigmoid输出就是一个概率。...原创 2018-12-01 10:41:52 · 433 阅读 · 1 评论 -
随机森林处理鸢尾花数据实践
下面介绍随机森林处理鸢尾花数据的python实践,不清楚随机森林原理的科研参考我的笔记https://blog.youkuaiyun.com/qq_43468729/article/details/84722248开始撸代码~~首先导入相关包并进行数据预处理import numpy as npimport matplotlib.pyplot as pltimport matplotlib as mp...原创 2018-12-02 20:24:30 · 4041 阅读 · 0 评论 -
决策树对鸢尾花数据的处理实践
学习了决策树和随机森林的相关理论知识,让我们来动手实践吧~ 还是从熟悉的鸢尾花数据入手首先导入相关包和进行数据预处理,预处理方法可以见https://blog.youkuaiyun.com/qq_43468729/article/details/84678701这里就不重复写了。接着建立pipline模型model = Pipeline([ ('ss', StandardScaler()),...原创 2018-12-02 20:15:19 · 2164 阅读 · 0 评论 -
XGBoost及随机森林处理kaggle—Titanic数据实战
一、什么是XGBoostXGBoost是使用梯度提升框架GBDT实现的高效、灵活、可移植的机器学习库,是GBDT的一个C++实现。它将树的生成并行完成,从而提高学习速度。一般来说,XGBoost的速度和性能都要优于skearn.ensamble.GradientBoostingClassifier类。官网为https://xgboost.readthedocs.io/en/latest/二、...原创 2018-12-04 19:37:01 · 2001 阅读 · 1 评论 -
吴恩达机器学习配套作业2.2正则化逻辑回归 python实现
在训练的第二部分,我们将要通过加入正则项提升逻辑回归算法。简而言之,正则化是成本函数中的一个术语,它使算法更倾向于“更简单”的模型(在这种情况下,模型将更小的系数)。这个理论助于减少过拟合,提高模型的泛化能力。这样,我们开始吧。设想你是工厂的生产主管,你有一些芯片在两次测试中的测试结果。对于这两次测试,你想决定是否芯片要被接受或抛弃。为了帮助你做出艰难的决定,你拥有过去芯片的测试数据集,从其中你...原创 2019-08-15 15:10:19 · 397 阅读 · 0 评论