
Spark MLlib
文章平均质量分 65
Spark MLlib 机器学习,源码解析,定制算法开发。
全面讲解:
1、算法理论知识解析;
2、源码分析;
3、案例实战;
通过以上三个步骤,完全掌握Spark MLlib 模块。
sunbow0
专注分布式机器学习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《Spark MLlib 机器学习》细节解释(持续更新)
1、 P220对该段文字的解决:得到最大bin 数量后,求最大split 数量。对于无序特征,split = bin 数目/2;对于有序特征,split = bin 数目–1。 其中有读者问到:对于无序特征,split = bin 数目/2这个的由来,解释如下: 1)首先计算numBins: // 当前的特征数量小于m值,则认为无序 if (numCate原创 2016-04-21 18:30:04 · 13786 阅读 · 0 评论 -
《Spark MLlib 机器学习》勘误(持续更新)
《Spark MLlib 机器学习》勘误(持续更新)原创 2016-04-18 14:53:43 · 6393 阅读 · 0 评论 -
《Spark MLlib机器学习》已正式上市发售
《Spark MLlib机器学习》已正式上市发售,请大家多多支持!!!!购书地址:http://product.dangdang.com/23934484.htmlhttp://item.jd.com/11902946.htmlhttps://www.amazon.cn/Spark-MLlib%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E7%AE%9原创 2016-04-11 11:22:23 · 7783 阅读 · 3 评论 -
《Spark MLlib 机器学习》第二章代码
《Spark MLlib 机器学习》第二章代码2.1 Spark RDD 操作import org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import org.apache.spark.SparkContext._object rdd_test01 { def原创 2016-04-12 16:11:23 · 14750 阅读 · 0 评论 -
《Spark MLlib 机器学习》第三章代码
《Spark MLlib 机器学习》第三章代码3.1 Breeze 介绍package book_codeimport org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import breeze.linalg._import breeze.numerics._imp原创 2016-04-12 17:39:42 · 10275 阅读 · 0 评论 -
《Spark MLlib 机器学习》第四章至十三章代码
《Spark MLlib 机器学习》第四章 至 第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6原创 2016-04-13 15:17:19 · 7574 阅读 · 0 评论 -
《Spark MLlib 机器学习》第十四章代码
《Spark MLlib 机器学习》第十四章代码1、相似度计算package recommendimport scala.math._import org.apache.spark.rdd.RDDimport org.apache.spark.SparkContext._/** * 用户评分. * @param userid 用户 * @param itemid 评分物品 *原创 2016-04-13 15:21:51 · 8427 阅读 · 0 评论 -
《Spark MLlib 机器学习》第十五章代码
《Spark MLlib 机器学习》第十五章代码1、神经网络类package NNimport org.apache.spark._import org.apache.spark.SparkContext._import org.apache.spark.rdd.RDDimport org.apache.spark.Loggingimport org.apache.spark.mlli原创 2016-04-13 15:27:17 · 13604 阅读 · 8 评论 -
Spark MLlib LDA 源码解析
1、Spark MLlib LDA源码解析http://blog.youkuaiyun.com/sunbow0Spark MLlib LDA 应该算是比较难理解的,其中涉及到大量的概率与统计的相关知识,而且还涉及到了Spark GraphX图计算方面的知识,要想明白其中的原理得要下一番功夫。LDA源码解析前的基础知识:1)LDA主题模型的理论知识参照:LDA数学八卦2)SparkG原创 2015-08-14 15:37:08 · 7151 阅读 · 0 评论 -
Spark MLlib LDA主题模型
1、Spark MLlib LDA主题模型(1)Spark MLlib LDA主题模型是Spark1.3开始加入的,具体介绍看以下文档:官方编程指南:http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-ldaSpark MLlib LDA 简介:http://原创 2015-08-07 11:52:22 · 14304 阅读 · 10 评论 -
Spark MLlib FPGrowth算法
1.1 FPGrowth算法1.1.1 基本概念关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的相关术语如下:(1)项与项集这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Ite原创 2015-05-09 16:35:21 · 14800 阅读 · 2 评论 -
Spark MLlib KMeans聚类算法
1.1 KMeans聚类算法1.1.1 基础理论KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心;(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点原创 2015-05-12 19:13:05 · 10944 阅读 · 0 评论 -
Spark MLlib NaiveBayes 贝叶斯分类器
1.1朴素贝叶斯公式贝叶斯定理: 其中A为事件,B为类别,P(B|A)为事件A条件下属于B类别的概率。朴素贝叶斯分类的正式定义如下: 1、设为一个待分类项,而每个a为x的一个特征属性。 2、有类别集合。 3、计算。 4、如果,则 。 那么现在的关键就是如何计算第3步中的各个条件概率:原创 2015-04-29 11:28:06 · 5847 阅读 · 1 评论 -
Spark MLlib SVM算法
1.1 SVM支持向量机算法支持向量机理论知识参照以下文档:支持向量机SVM(一)http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html支持向量机SVM(二)http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html支持向量机(三)原创 2015-05-08 17:18:08 · 10945 阅读 · 1 评论 -
Spark MLlib Logistic Regression逻辑回归算法
1.1 逻辑回归算法1.1.1 基础理论logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这原创 2015-05-07 17:13:35 · 17067 阅读 · 0 评论 -
Spark MLlib Linear Regression线性回归算法
1、Spark MLlibLinear Regression线性回归算法1.1 线性回归算法1.1.1 基础理论在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条原创 2015-05-06 18:43:02 · 16475 阅读 · 1 评论 -
Spark MLlib Statistics统计
1、Spark MLlib Statistics统计Spark Mllib统计模块代码结构如下:1.1列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。 //读取数据,转换成RDD[Vector]类型 valdata_path ="/home/jb-huangmeiling/sample_stat.txt"原创 2015-05-11 15:06:46 · 9310 阅读 · 0 评论 -
Spark Mlib BLAS线性代数运算库
1.4 BLAS (BLAS routines for MLlib's vectors and matrices.)BLAS(Basic Linear Algebra Subprograms,基础线性代数程序集)是一个应用程序接口(API)标准,用以规范发布基础线性代数操作的数值库(如矢量或矩阵乘法)。BLAS按照功能被分为三个级别: Level 1:矢量-矢量运算Leve原创 2015-05-05 17:25:06 · 10191 阅读 · 2 评论 -
Spark MLlib 核心基础:向量 And 矩阵
1、Spark MLlib 核心基础:向量 And矩阵1.1 Vector1.1.1 dense vector源码定义: * Creates a dense vector from its values. */ @varargs def dense(firstValue: Double, otherValues: Double*): Vector =原创 2015-04-23 17:47:21 · 9337 阅读 · 0 评论