MLANDAI-优快云博客

原创机器学习笔记 -吴恩达（第七章：神经网络-手写数字识别，python实现附源码）

（1）数据预处理import matplotlib.pyplot as pltimport numpy as npimport scipy.io as sioimport matplotlibimport scipy.optimize as optfrom sklearn.metrics import classification_report#加载权重值def load_w...

2018-11-24 21:43:39 1376

原创机器学习笔记 -吴恩达（第七章：逻辑回归-手写数字识别，python实现附源码）

（1）数据集描述使用逻辑回归来识别手写数字（0到9）。将我们之前的逻辑回归的实现，扩展到多分类的实现。数据集是MATLAB的本机格式，要加载它到Python，我们需要使用一个SciPy工具。图像在martix X中表示为400维向量（其中有5,000个）, 400维“特征”是原始20 x 20图像中每个像素的灰度强度, 类标签在向量y中作为表示图像中数字的数字类。import nump...

2018-11-24 18:14:07 3770 1

原创机器学习笔记 -吴恩达（第七章：逻辑回归-正则化，python实现附源码）

（1）正则化描述线性回归问题中的过拟合，如图3过拟合，不利于预测，图1欠拟合分类问题中的过拟合，如图3过拟合，不利于预测，图1欠拟合（2）解决方案（3）损失函数，加入了正则化，偏向选择较小的参数值来进行拟合为加入的代价函数，为正则化参数，我们不需要对进行正则化。（4）数据查看path = 'ex2data2.txt'dat...

2018-11-21 16:44:27 3704

原创机器学习笔记 -吴恩达（第七章：逻辑回归，python实现附源码）

（1）逻辑回归概念1. 回归(Regression)回归，我的理解来说，其直观的理解就是拟合的意思。我们以线性回归为例子，在二维平面上有一系列红色的点，我们想用一条直线来尽量拟合这些红色的点，这就是线性回归。回归的本质就是我们的预测结果尽量贴近实际观测的结果，或者说我们的求得一些参数，经过计算之后的预测结果尽可能接近真实值。2. 逻辑回归的由来对于二类线性可分的数据集，使用线性感知器...

2018-11-21 15:06:22 2064

原创机器学习笔记 -吴恩达（第六章：线性回归，tensorflow实现附源码）

（1）数据概览import pandas as pdimport seaborn as snssns.set(context="notebook", style="whitegrid", palette="dark")import matplotlib.pyplot as pltimport tensorflow as tfimport numpy as npraw_data =...

2018-11-21 11:04:28 606

原创机器学习笔记 -吴恩达（第六章：线性回归，numpy实现、scikit-learn实现，附源码）

（1）数据描述1，使用pandas读取数据，简化后续操作import numpy as npimport pandas as pdimport matplotlib.pyplot as pltpath = 'ex1data1.txt'data = pd.read_csv(path, header=None, names=['Population', 'Profit'])dat...

2018-11-20 11:38:24 2422 1

原创 Spark-MLlib的快速使用之十三（线性回归随机梯度）

（1）描述在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线...

2018-11-20 08:24:28 247

原创 Spark-MLlib的快速使用之十一（K-means 聚类）

K-means是最常用的聚类算法之一，它将数据点聚类为预定义数量的聚类。该spark.mllib实现包括一个名为kmeans ||的k-means ++方法的并行变体。实现中包含以下参数：spark.mllibk是所需簇的数量。 maxIterations是要运行的最大迭代次数。 initializationMode指定随机初始化或通过k-means ||初始化。 runs是运行k-m...

2018-11-20 08:24:16 414

原创 Spark-MLlib的快速使用之七（决策树-分类）

（1）数据1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0,3,13,162,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0,8,32,403,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0,5,27,32含义instant,dteday,seaso...

2018-11-20 08:24:05 369

原创 Spark-MLlib的快速使用之十五（保序回归）

(1) 描述这种回归，是这一种单调函数的回归，回归模型中后一个x一定比前一个x大，也就是有序，具体的数学公式在上面两个网址中都有。保序回归并不需要制定的目标函数。保序回归的应用之一就是用来做统计推断，比如药量和毒性的关系，一般认为毒性随着药量是不减或者递增的关系，借此可以来估计最大药量。问题描述：给定一个无序数字序列y，通过修改每个元素的值得到一个非递减序列 y‘ ，问如何使y和 ...

2018-11-20 08:23:29 260

原创 Spark-MLlib的快速使用之八（决策树-回归）

通俗来说，决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等情况。女儿：是公务员不？母亲：是，在税务局上班呢。女儿：那好，我去见见。（1）训练数据0 1:32 2:1 3:1 4:00 1:25 2:1 3:2 4:0...

2018-11-20 08:23:15 408

原创稿 Spark-MLlib的快速使用之十六（时间序列）

（1）描述（2）代码public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("JavaPrefixSpanExample").setMaster("local");JavaSparkContext sc = new JavaSparkContext(spa...

2018-11-20 08:22:59 1020

原创 Spark-MLlib的快速使用之九（推荐算法最小二乘法）

（0）样例数据196,242,3,881250949186,302,3,89171774222,377,1,878887116244,51,2,880606923166,346,1,886397596298,474,4,884182806115,265,2,881171488253,465,5,891628467305,451,3,8863248176,86...

2018-11-19 10:32:59 603

原创 Spark-MLlib的快速使用之十二（逻辑回归垃圾邮件分类）

Logistic分类器的适用范围：，比如“是否为垃圾邮件”、“是否为体育新闻”、‘病患是否得了流感’。(1)训练数据ham.txtDear Spark Learner, Thanks so much for attending the Spark Summit 2014! Check out videos of talks from the summit at ...Hi M...

2018-11-19 10:32:43 1212

原创 Spark-MLlib的快速使用之十四（逻辑回归一元逻辑回归）

（1）描述逻辑回归 Logistic regressionL-BFGS支持二分逻辑回归和多项式逻辑回归，SGD只支持二分逻辑回归。L-BFGS不支持L1正则化，SGD版本支持L1正则化。当L1不是必须时，推荐使用L-BFGS版本，它通过拟牛顿近似Heaaian矩阵收敛的更快更准。（2）样例数据1 159:124 160:253 161:255 162:63 186:96 187:2...

2018-11-19 10:32:25 519

原创 Spark-MLlib的快速使用之十（关联分析）

（1）描述关联规则挖掘最典型的例子是购物篮分析，通过分析可以知道哪些商品经常被一起购买，从而可以改进商品货架的布局。（2）测试数据r z h k pz y x w v u t ss x o n rx z y m t s q ezx z y r q t p（3）样例程序public static void main(String[] args) {St...

2018-11-19 10:32:11 819

原创机器学习笔记 -吴恩达（第五章：octave教程）

1，概述octave是开源哦，在国外比较流行，适合快速的实现机器学习demo原型，可行后，再用python等语言实现具体算法2，安装下载exe文件后直接点击安装就行3，操作练习加减乘除平方逻辑运算赋值与显示向量与矩阵绘图...

2018-11-19 10:02:03 349

原创机器学习笔记 -吴恩达（第四章：多变量线性回归）

1，数据样例特征值为4个（房屋面积房间个数楼层数、建筑年代）输出值为价格 2，模型 3，多变量梯度下降 4，特征缩放 5 学习率 6 特征和多项式回归 7，正规方程求解 ...

2018-11-19 09:28:25 230

原创机器学习笔记 -吴恩达（第三章：线性代数回顾）

1.矩阵和向量向量：一个n*1矩阵大写字母代表矩阵，小写字母代表数字、标量或向量2.加法和标量乘法3.矩阵向量乘法 prediction=dataMatrix X parameters4.矩阵乘法5.矩阵乘法特征单位矩阵I（I_n*n）对于任意矩阵A，A*I=I*A=A6.逆和转置---------------...

2018-11-19 09:11:45 258

原创机器学习笔记 -吴恩达（第三章：线性代数）

矩阵是指由数字组成的矩形阵列并写在方括号中间一个向量是一种特殊的矩阵向量是只有一列的矩阵所以你有一个 n×1 矩阵还记得吗 N是行数而这里的1 表示的是列数所以只有一列的矩阵就是我们所说的向量通常在书写矩阵和向量时大多数人会使用大写字母来表示矩阵因此我们要使用大写字母如 A B C X 来表示矩阵而通常我们会使用小写字母像a b x y...

2018-11-19 09:11:25 344

原创机器学习笔记 -吴恩达（第二章：单变量线性回归）

1，概念单变量线性回归是一个监督学习过程，本例中用房物面积与房屋价格数据集进行建模。2，数据集 3，模型 4，损失函数定义误差： 5，梯度下降算法求解代价函数最小值注意参数的值需要同时更新 ...

2018-11-19 08:59:49 186

原创机器学习笔记 -吴恩达（第一章：绪论）

0.机器学习定义一个程序由经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验值E后，经过P的评判，程序在处理T的时候经验有所提升。1.机器学习运用领域：数据挖掘无法手动编写的程序：NLP（自然语言处理），计算机视觉私人订制程序：eg推荐 Understanding human learning (...

2018-11-19 08:41:07 203

原创 Spark-MLlib的快速使用之六（回归分析之逻辑回归）

（1）算法描述逻辑回归（Logistic Regression）是用于处理因变量为分类变量的回归问题，常见的是二分类或二项分布问题，也可以处理多分类问题，它实际上是属于一种分类方法（2）测试数据1 1:-0.222222 2:0.5 3:-0.762712 4:-0.8333331 1:-0.555556 2:0.25 3:-0.864407 4:-0.9166671 1:-0...

2018-11-16 14:57:09 532

原创 Spark-MLlib的快速使用之五（梯度提升树GBT 回归）

（1）描述　梯度提升树（GBT）是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归，可以使用连续和分类特征。（2）测试数据1 153:5 154:63 155:197 181:20 182:254 183:230 184:24 209:20 210:254 211:254 212:48 237:20 238:254 239...

2018-11-16 14:52:23 494

原创 Spark-MLlib的快速使用之四（梯度提升树GBT 分类）

2018-11-16 14:38:55 553

原创 Spark-MLlib的快速使用之三（随机森林）

（1）描述信息随机森林算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法，它不仅可以用来做分类，也可用来做回归即预测，随机森林机由多个决策树构成，相比于单个决策树算法，它分类、预测效果更好，不容易出现过度拟合的情况。随机森林算法基于决策树，在正式讲解随机森林算法之前，先来介绍决策树的原理。决策树是数据挖掘与机器学习领域中一种非常重要的分类器，算法通过训练数据来构建一棵用于分类的树，从...

2018-11-16 14:36:45 537

原创 Spark-MLlib的快速使用之二（朴素贝叶斯分类）

（1）算法描述算法介绍：朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，在没有其它可用信息下，我们会选择条件概率最大的类别作为此待分类项应属的类别。（2）测试数据1 125:145 126:255 127:211 128:31 152:32 153:237 154:253 15...

2018-11-16 14:34:58 382

原创 Spark-MLlib的快速使用之一（数据类型）

1、Vector 数学向量，MLlib既支持稠密向量也支持稀疏向量。稠密向量：向量的每一位都存储下来。稀疏向量：存储非零位以节约空间 2、LabeledPoint表示带标签的数据点，包含一个特征向量与一个标签。 3、Model训练算法的结果，通过predict()方法对新的数据进行预测附：操作向量的基本实例object VectorsTest {...

2018-11-16 14:31:21 175

转载 Spark-MLlib的快速使用之零（spark介绍）

一、什么是机器学习机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，以此优化计算机程序的性能标准。一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance ...

2018-11-16 14:29:04 221

转载 sklearn的快速使用之零（Scikit-learn简介）

Scikit-learn官网 (scikit-learn.org)之前在python易筋经系列中我有写过scipy的笔记[2]，scipy是一个开源的基于python的科学计算工具包。基于scipy，目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本，它们被统一称为Scikits，即scipy工具包的意思。而在这些分支版本中，最有名，也是专门面向机器学习的一个就是Scikit-l...

2018-11-16 11:11:17 287

转载 sklearn的快速使用之十（高斯朴素贝叶斯 )

"""=========================================Gaussian Naive Bayes ( 高斯朴素贝叶斯 )========================================="""print(__doc__)from sklearn import datasetsfrom sklearn.naive_bayes impo...

2018-11-16 10:55:36 935

转载 sklearn的快速使用之九（推荐算法）

"""==============构建电影推荐系统==============http://blog.youkuaiyun.com/u013185349/article/details/61192218"""print(__doc__)# 电影打分数据data = {'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3...

2018-11-16 10:48:11 2566

原创 sklearn的快速使用之八（支持向量机）

print(__doc__)import numpy as npimport matplotlib.pyplot as pltfrom sklearn import svm, datasetsdef make_meshgrid(x, y, h=.02): """Create a mesh of points to plot in Parameters ---...

2018-11-15 17:34:55 562

print(__doc__)# Import the necessary modules and libraries#https://blog.youkuaiyun.com/csfreebird/article/details/52744037import numpy as npfrom sklearn.tree import DecisionTreeRegressorimport matplot...

2018-11-15 17:31:43 395

原创 sklearn的快速使用之六（决策树分类）

print(__doc__)import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifier# Parametersn_classes = 3plot_colors = "ry...

2018-11-15 17:29:14 448

原创 sklearn的快速使用之五（随机梯度下降）

import sysimport matplotlib.pyplot as pltfrom sklearn.linear_model import SGDRegressorfrom sklearn.preprocessing import StandardScaler plt.figure() # 实例化作图变量plt.title('single variable') # 图像标题p...

2018-11-15 17:26:38 551

转载 sklearn的快速使用之四（多元线性回归）

from sklearn.linear_model import LinearRegression X = [[1,1,1],[1,1,2],[1,2,1]]y = [[6],[9],[8]] model = LinearRegression()r = model.fit(X, y)print (r)x2 = [[1,3,5]]y2 = model.predict(x2)pr...

2018-11-15 17:23:55 1301

转载 sklearn的快速使用之三（逻辑回归）

import sysfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.linear_model.logistic import LogisticRegression X = [] # 前三行作为输入样本中文的话用结巴分词X.append("fuck you")X.append("fuc...

2018-11-15 17:20:38 260

原创 sklearn的快速使用之二（特征工程）

from sklearn.datasets import load_irisiris = load_iris()features = iris.datatarget = iris.targetprint (features)print (target)# 无量纲化'''把不同数值规格的数据转换为同一个规格，比如0附近。标准化（ z-score standardizati...

2018-11-15 17:17:58 325

原创 sklearn的快速使用之一（数据集探索）

import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dfrom sklearn import datasetsfrom sklearn.decomposition import PCA# 加载数据集iris = datasets.load_iris()#获取前两个数据特征集X = iris.da...

2018-11-15 17:11:22 619