- 博客(58)
- 收藏
- 关注
原创 Spark ML 基础:DataFrame、Dataset、feature
Spark ML 是基于DataFrame/ Dataset进行机器学习API的开发,随着Spark 2.0的发展,Dataset将成为主流,会逐步取代RDD、DataFrame,当然这个取代只是在Dataset实现已有RDD、DataFrame的API,大家以后就可以用Dataset的API来实现计算逻辑,所以大家不用担心之前学会的RDD、DataFrame没有用处。博主一般喜欢从源码的角度来看
2016-05-25 14:02:36
19915
1
原创 Spark应用程序运行日志查看
比如,Spark应用程序代码如下: defseq(a: Int, b: Int): Int = { println("seq: " + a + "\t "+ b) math.max(a, b) } defcomb(a: Int, b: Int): Int = { println("comb: " + a + "\t "+ b) a + b } vardata11= sc.
2016-05-20 20:27:57
22182
转载 Spark 2.0 技术预览版: Easier, Faster, and Smarter
For the past few months, we have been busy working on the next major release of the big data open source software we love: Apache Spark 2.0. Since Spark 1.0 came out two years ago, we have heard prais
2016-05-12 11:49:48
7173
原创 Spark MLlib 机器学习算法与源码解析(网络课程—第一期)
《Spark MLlib 机器学习算法与源码解析》spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。目前,Spark成为了现在大数据领域最火的开源软
2016-05-11 17:12:36
13322
2
原创 《Spark MLlib 机器学习》细节解释(持续更新)
1、 P220对该段文字的解决:得到最大bin 数量后,求最大split 数量。对于无序特征,split = bin 数目/2;对于有序特征,split = bin 数目–1。 其中有读者问到:对于无序特征,split = bin 数目/2这个的由来,解释如下: 1)首先计算numBins: // 当前的特征数量小于m值,则认为无序 if (numCate
2016-04-21 18:30:04
13761
原创 《Spark MLlib 机器学习》第十五章代码
《Spark MLlib 机器学习》第十五章代码1、神经网络类package NNimport org.apache.spark._import org.apache.spark.SparkContext._import org.apache.spark.rdd.RDDimport org.apache.spark.Loggingimport org.apache.spark.mlli
2016-04-13 15:27:17
13584
2
原创 《Spark MLlib 机器学习》第十四章代码
《Spark MLlib 机器学习》第十四章代码1、相似度计算package recommendimport scala.math._import org.apache.spark.rdd.RDDimport org.apache.spark.SparkContext._/** * 用户评分. * @param userid 用户 * @param itemid 评分物品 *
2016-04-13 15:21:51
8398
原创 《Spark MLlib 机器学习》第四章至十三章代码
《Spark MLlib 机器学习》第四章 至 第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6
2016-04-13 15:17:19
7561
原创 《Spark MLlib 机器学习》第三章代码
《Spark MLlib 机器学习》第三章代码3.1 Breeze 介绍package book_codeimport org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import breeze.linalg._import breeze.numerics._imp
2016-04-12 17:39:42
10257
原创 《Spark MLlib 机器学习》第二章代码
《Spark MLlib 机器学习》第二章代码2.1 Spark RDD 操作import org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import org.apache.spark.SparkContext._object rdd_test01 { def
2016-04-12 16:11:23
14725
原创 《Spark MLlib机器学习》已正式上市发售
《Spark MLlib机器学习》已正式上市发售,请大家多多支持!!!!购书地址:http://product.dangdang.com/23934484.htmlhttp://item.jd.com/11902946.htmlhttps://www.amazon.cn/Spark-MLlib%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E7%AE%9
2016-04-11 11:22:23
7768
转载 Apache Arrow:一个跨平台的内存数据交换格式
1、Apache Arrow:一个跨平台的内存数据交换格式Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工
2016-03-11 11:25:44
3889
原创 基于Spark自动扩展scikit-learn (spark-sklearn)
1、基于Spark自动扩展scikit-learn(spark-sklearn)1.1 导论Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算法中,单机做法是计算所有样本的梯度值,单机算法是以全体样本的计算单位;而分布式算法的逻辑是以每个样本为单位,在集群上分布式的计算每个样本的梯度值,然后再对每个样本的梯度进行聚合操作等。在Spark Mllib中
2016-03-10 17:47:25
19859
1
原创 Spark Datasets介绍
1、Spark Datasets介绍1.1 背景从Spark1.3.0版本开始推出DataFrame,DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更快。发布DataFrame之后开发者收到了很多反馈,其中一个主要的是大家反映缺乏编译时类型安全。为了解决这个问题,Spark采用新的 Dataset API (DataFrame
2016-02-23 15:04:28
4423
原创 Spark1.5.1 编译与安装
1、下载下载地址:http://spark.apache.org/downloads.html选择下载源码2、源码编译1)解压tar -zxvf spark-1.5.1.tgz2、编译进入根目录下,采用make-distribution.sh进行编译。cd spark-1.5.1sudo ./make-distribution.sh --tgz-
2015-10-09 11:41:08
5512
3
原创 Spark MLlib LDA 源码解析
1、Spark MLlib LDA源码解析http://blog.youkuaiyun.com/sunbow0Spark MLlib LDA 应该算是比较难理解的,其中涉及到大量的概率与统计的相关知识,而且还涉及到了Spark GraphX图计算方面的知识,要想明白其中的原理得要下一番功夫。LDA源码解析前的基础知识:1)LDA主题模型的理论知识参照:LDA数学八卦2)SparkG
2015-08-14 15:37:08
7121
转载 Spark GraphX Programming Guide 编程指南
6、 Spark GraphX Programming Guide6.1 概述GraphX是spark的一个新组件用于图和并行图计算。在一个高水平,GraphX通过引进一个新的图抽象扩展了spark RDD:带有顶点和边属性的有向多重图。为了支持图计算,GraphX 提供了很多基本的操作(像 subgraph, joinVertices, and aggregateMessages
2015-08-13 14:38:09
3387
转载 Spark Graphx 构建graph和aggregateMessages聚合消息
Graphx:构建graph和聚合消息@玄畅2014.12.29About最近在优化kcore算法时,对Graphx代码看了几遍。1.2后Graphx性能有所提升,代码不太容易理解,现在用图表示出来会更直观。对数学上的图有点印象的是x轴、y轴坐标图,坐标中每个点用横坐标x和纵坐标y表示,即: (x1, y1), (x2, y2), 一个坐标点可以确定一个点的唯一
2015-08-13 12:03:21
5362
原创 Spark MLlib LDA主题模型
1、Spark MLlib LDA主题模型(1)Spark MLlib LDA主题模型是Spark1.3开始加入的,具体介绍看以下文档:官方编程指南:http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-ldaSpark MLlib LDA 简介:http://
2015-08-07 11:52:22
14272
3
原创 Spark1.4.1 编译与安装
1、下载下载地址:http://spark.apache.org/downloads.html选择下载源码2、源码编译1)解压tar -zxvf spark-1.4.1.tgz2、编译进入根目录下,采用make-distribution.sh进行编译。cd spark-1.4.1sudo ./make-distribution.s
2015-07-27 18:05:59
5191
原创 Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.3
3、Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3http://blog.youkuaiyun.com/sunbow0第三章Convolution Neural Network (卷积神经网络)3实例3.1 测试数据按照上例数据,或者新建图片识别数据。3.2 CNN实例 //2 测试数据
2015-07-22 20:33:42
5654
8
原创 Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.2
3、Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.2http://blog.youkuaiyun.com/sunbow0第三章Convolution Neural Network (卷积神经网络)2基础及源码解析2.1 Convolution Neural Network卷积神经网络基础知识1)基础知识
2015-07-22 20:33:20
4203
原创 Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1
3、Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1http://blog.youkuaiyun.com/sunbow0Spark MLlib Deep Learning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在SparkMLlib中的实现。具体Spark MLlib Deep Learning
2015-07-22 20:32:42
6745
原创 Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.3
Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.3http://blog.youkuaiyun.com/sunbow0/第二章Deep Belief Network (深度信念网络)3实例3.1 测试数据按照上例数据,或者新建图片识别数据。3.2 DBN实例//****************例2(读取固定样
2015-06-05 16:22:04
4189
3
原创 Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.2
Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.2http://blog.youkuaiyun.com/sunbow0第二章Deep Belief Network (深度信念网络)2基础及源码解析2.1 Deep Belief Network深度信念网络基础知识1)综合基础知识参照:http://tieba.ba
2015-06-05 15:59:06
3809
原创 Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.1
Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.1http://blog.youkuaiyun.com/sunbow0/Spark MLlib Deep Learning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在SparkMLlib中的实现。具体Spark MLlib Deep Learning(深度学习)目录
2015-06-05 15:49:12
3910
原创 Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.3
Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.3http://blog.youkuaiyun.com/sunbow0/第一章Neural Net(神经网络)3实例3.1 测试数据3.1.1 测试函数采用智能优化算法的经典测试函数,如下:(1)Sphere Model函数表达式搜索范围
2015-05-28 18:20:44
4330
3
原创 Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.2
Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.2http://blog.youkuaiyun.com/sunbow0/第一章Neural Net(神经网络)2基础及源码解析2.1 Neural Net神经网络基础知识2.1.1 神经网络基础知识参照:http://deeplearning.stanford.edu/wiki
2015-05-28 18:09:55
7616
2
原创 Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.1
Spark MLlib Deep Learning Neural Net(深度学习-神经网络)1.1http://blog.youkuaiyun.com/sunbow0/Spark MLlib Deep Learning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在SparkMLlib中的实现。具体Spark MLlib Deep Learning(深度学习)目录结构:第一章Ne
2015-05-28 18:01:09
10475
2
原创 Spark MLlib KMeans聚类算法
1.1 KMeans聚类算法1.1.1 基础理论KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心;(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点
2015-05-12 19:13:05
10910
原创 Spark MLlib Statistics统计
1、Spark MLlib Statistics统计Spark Mllib统计模块代码结构如下:1.1列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。 //读取数据,转换成RDD[Vector]类型 valdata_path ="/home/jb-huangmeiling/sample_stat.txt"
2015-05-11 15:06:46
9279
原创 Spark MLlib FPGrowth算法
1.1 FPGrowth算法1.1.1 基本概念关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的相关术语如下:(1)项与项集这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Ite
2015-05-09 16:35:21
14750
原创 Spark MLlib SVM算法
1.1 SVM支持向量机算法支持向量机理论知识参照以下文档:支持向量机SVM(一)http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html支持向量机SVM(二)http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html支持向量机(三)
2015-05-08 17:18:08
10923
1
原创 Spark MLlib Logistic Regression逻辑回归算法
1.1 逻辑回归算法1.1.1 基础理论logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这
2015-05-07 17:13:35
17015
原创 Spark MLlib Linear Regression线性回归算法
1、Spark MLlibLinear Regression线性回归算法1.1 线性回归算法1.1.1 基础理论在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条
2015-05-06 18:43:02
16398
原创 Spark Mlib BLAS线性代数运算库
1.4 BLAS (BLAS routines for MLlib's vectors and matrices.)BLAS(Basic Linear Algebra Subprograms,基础线性代数程序集)是一个应用程序接口(API)标准,用以规范发布基础线性代数操作的数值库(如矢量或矩阵乘法)。BLAS按照功能被分为三个级别: Level 1:矢量-矢量运算Leve
2015-05-05 17:25:06
10153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人