
机器学习-spark
文章平均质量分 75
MLANDAI
机器学习,知行合一
展开
-
Spark-MLlib的快速使用之零(spark介绍)
一、什么是机器学习机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance ...转载 2018-11-16 14:29:04 · 193 阅读 · 0 评论 -
Spark-MLlib的快速使用之十五( 保序回归)
(1) 描述这种回归,是这一种单调函数的回归,回归模型中后一个x一定比前一个x大,也就是有序,具体的数学公式在上面两个网址中都有。保序回归并不需要制定的目标函数。保序回归的应用之一就是用来做统计推断,比如药量和毒性的关系,一般认为毒性随着药量是不减或者递增的关系,借此可以来估计最大药量。问题描述:给定一个无序数字序列y,通过修改每个元素的值得到一个非递减序列 y‘ ,问如何使y和 ...原创 2018-11-20 08:23:29 · 225 阅读 · 0 评论 -
Spark-MLlib的快速使用之十四(逻辑回归 一元逻辑回归)
(1)描述逻辑回归 Logistic regressionL-BFGS支持二分逻辑回归和多项式逻辑回归,SGD只支持二分逻辑回归。L-BFGS不支持L1正则化,SGD版本支持L1正则化。当L1不是必须时,推荐使用L-BFGS版本,它通过拟牛顿近似Heaaian矩阵收敛的更快更准。(2)样例数据1 159:124 160:253 161:255 162:63 186:96 187:2...原创 2018-11-19 10:32:25 · 479 阅读 · 0 评论 -
Spark-MLlib的快速使用之十三( 线性回归 随机梯度)
(1)描述在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线...原创 2018-11-20 08:24:28 · 226 阅读 · 0 评论 -
Spark-MLlib的快速使用之十二(逻辑回归 垃圾邮件分类)
Logistic分类器的适用范围:,比如“是否为垃圾邮件”、“是否为体育新闻”、‘病患是否得了流感’。(1)训练数据ham.txtDear Spark Learner, Thanks so much for attending the Spark Summit 2014! Check out videos of talks from the summit at ...Hi M...原创 2018-11-19 10:32:43 · 1163 阅读 · 0 评论 -
Spark-MLlib的快速使用之十一(K-means 聚类)
K-means是最常用的聚类算法之一,它将数据点聚类为预定义数量的聚类。该spark.mllib实现包括一个名为kmeans ||的k-means ++方法的并行变体 。实现中包含以下参数:spark.mllibk是所需簇的数量。 maxIterations是要运行的最大迭代次数。 initializationMode指定随机初始化或通过k-means ||初始化。 runs是运行k-m...原创 2018-11-20 08:24:16 · 373 阅读 · 0 评论 -
Spark-MLlib的快速使用之十( 关联分析)
(1)描述关联规则挖掘最典型的例子是购物篮分析,通过分析可以知道哪些商品经常被一起购买,从而可以改进商品货架的布局。(2) 测试数据r z h k pz y x w v u t ss x o n rx z y m t s q ezx z y r q t p(3) 样例程序public static void main(String[] args) {St...原创 2018-11-19 10:32:11 · 788 阅读 · 0 评论 -
Spark-MLlib的快速使用之九( 推荐算法 最小二乘法)
(0)样例数据196,242,3,881250949186,302,3,89171774222,377,1,878887116244,51,2,880606923166,346,1,886397596298,474,4,884182806115,265,2,881171488253,465,5,891628467305,451,3,8863248176,86...原创 2018-11-19 10:32:59 · 576 阅读 · 0 评论 -
Spark-MLlib的快速使用之八(决策树-回归)
通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。(1)训练数据0 1:32 2:1 3:1 4:00 1:25 2:1 3:2 4:0...原创 2018-11-20 08:23:15 · 381 阅读 · 0 评论 -
Spark-MLlib的快速使用之七(决策树-分类)
(1)数据1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0,3,13,162,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0,8,32,403,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0,5,27,32含义instant,dteday,seaso...原创 2018-11-20 08:24:05 · 342 阅读 · 0 评论 -
Spark-MLlib的快速使用之六(回归分析之逻辑回归)
(1)算法描述逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法(2)测试数据1 1:-0.222222 2:0.5 3:-0.762712 4:-0.8333331 1:-0.555556 2:0.25 3:-0.864407 4:-0.9166671 1:-0...原创 2018-11-16 14:57:09 · 503 阅读 · 0 评论 -
Spark-MLlib的快速使用之五(梯度提升树GBT 回归)
(1)描述 梯度提升树(GBT)是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归,可以使用连续和分类特征。(2)测试数据1 153:5 154:63 155:197 181:20 182:254 183:230 184:24 209:20 210:254 211:254 212:48 237:20 238:254 239...原创 2018-11-16 14:52:23 · 460 阅读 · 0 评论 -
Spark-MLlib的快速使用之四(梯度提升树GBT 分类)
(1)描述 梯度提升树(GBT)是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归,可以使用连续和分类特征。(2)测试数据1 153:5 154:63 155:197 181:20 182:254 183:230 184:24 209:20 210:254 211:254 212:48 237:20 238:254 239...原创 2018-11-16 14:38:55 · 519 阅读 · 0 评论 -
Spark-MLlib的快速使用之三(随机森林)
(1)描述信息随机森林算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法,它不仅可以用来做分类,也可用来做回归即预测,随机森林机由多个决策树构成,相比于单个决策树算法,它分类、预测效果更好,不容易出现过度拟合的情况。随机森林算法基于决策树,在正式讲解随机森林算法之前,先来介绍决策树的原理。决策树是数据挖掘与机器学习领域中一种非常重要的分类器,算法通过训练数据来构建一棵用于分类的树,从...原创 2018-11-16 14:36:45 · 505 阅读 · 0 评论 -
Spark-MLlib的快速使用之二(朴素贝叶斯分类)
(1)算法描述算法介绍:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我们会选择条件概率最大的类别作为此待分类项应属的类别。(2)测试数据1 125:145 126:255 127:211 128:31 152:32 153:237 154:253 15...原创 2018-11-16 14:34:58 · 337 阅读 · 0 评论 -
Spark-MLlib的快速使用之一(数据类型)
1、Vector 数学向量,MLlib既支持稠密向量也支持稀疏向量。稠密向量: 向量的每一位都存储下来。稀疏向量:存储非零位以节约空间 2、LabeledPoint表示带标签的数据点,包含一个特征向量与一个标签。 3、Model训练算法的结果,通过predict()方法对新的数据进行预测 附:操作向量的基本实例object VectorsTest {...原创 2018-11-16 14:31:21 · 149 阅读 · 0 评论 -
稿 Spark-MLlib的快速使用之十六( 时间序列)
(1)描述(2)代码public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("JavaPrefixSpanExample").setMaster("local");JavaSparkContext sc = new JavaSparkContext(spa...原创 2018-11-20 08:22:59 · 974 阅读 · 0 评论