
Spark
文章平均质量分 69
sunbow0
专注分布式机器学习
展开
-
实例数据汇总
目前文章中使用的数据,如还有不全的,可以留言,我再找找!http://pan.baidu.com/s/1c0jRuWK原创 2015-07-27 11:10:47 · 3039 阅读 · 7 评论 -
基于Spark自动扩展scikit-learn (spark-sklearn)
1、基于Spark自动扩展scikit-learn(spark-sklearn)1.1 导论Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算法中,单机做法是计算所有样本的梯度值,单机算法是以全体样本的计算单位;而分布式算法的逻辑是以每个样本为单位,在集群上分布式的计算每个样本的梯度值,然后再对每个样本的梯度进行聚合操作等。在Spark Mllib中原创 2016-03-10 17:47:25 · 19859 阅读 · 4 评论 -
Spark Datasets介绍
1、Spark Datasets介绍1.1 背景从Spark1.3.0版本开始推出DataFrame,DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更快。发布DataFrame之后开发者收到了很多反馈,其中一个主要的是大家反映缺乏编译时类型安全。为了解决这个问题,Spark采用新的 Dataset API (DataFrame原创 2016-02-23 15:04:28 · 4423 阅读 · 0 评论 -
Spark MLlib机器学习—封面
Spark MLlib机器学习,目前已经正在印刷中,预计4月初可以正式上市,请大家多多关注!封面如下:原创 2016-03-18 11:59:55 · 2615 阅读 · 1 评论 -
Spark1.5.1 编译与安装
1、下载下载地址:http://spark.apache.org/downloads.html选择下载源码2、源码编译1)解压tar -zxvf spark-1.5.1.tgz2、编译进入根目录下,采用make-distribution.sh进行编译。cd spark-1.5.1sudo ./make-distribution.sh --tgz-原创 2015-10-09 11:41:08 · 5512 阅读 · 4 评论 -
Spark MLlib LDA 源码解析
1、Spark MLlib LDA源码解析http://blog.youkuaiyun.com/sunbow0Spark MLlib LDA 应该算是比较难理解的,其中涉及到大量的概率与统计的相关知识,而且还涉及到了Spark GraphX图计算方面的知识,要想明白其中的原理得要下一番功夫。LDA源码解析前的基础知识:1)LDA主题模型的理论知识参照:LDA数学八卦2)SparkG原创 2015-08-14 15:37:08 · 7122 阅读 · 0 评论 -
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.3
3、Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3http://blog.youkuaiyun.com/sunbow0第三章Convolution Neural Network (卷积神经网络)3实例3.1 测试数据按照上例数据,或者新建图片识别数据。3.2 CNN实例 //2 测试数据原创 2015-07-22 20:33:42 · 5654 阅读 · 23 评论 -
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1
3、Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1http://blog.youkuaiyun.com/sunbow0Spark MLlib Deep Learning工具箱,是根据现有深度学习教程《UFLDL教程》中的算法,在SparkMLlib中的实现。具体Spark MLlib Deep Learning原创 2015-07-22 20:32:42 · 6745 阅读 · 3 评论 -
Spark MLlib LDA主题模型
1、Spark MLlib LDA主题模型(1)Spark MLlib LDA主题模型是Spark1.3开始加入的,具体介绍看以下文档:官方编程指南:http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-ldaSpark MLlib LDA 简介:http://原创 2015-08-07 11:52:22 · 14272 阅读 · 10 评论 -
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.2
3、Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.2http://blog.youkuaiyun.com/sunbow0第三章Convolution Neural Network (卷积神经网络)2基础及源码解析2.1 Convolution Neural Network卷积神经网络基础知识1)基础知识原创 2015-07-22 20:33:20 · 4203 阅读 · 1 评论 -
Spark Graphx 构建graph和aggregateMessages聚合消息
Graphx:构建graph和聚合消息@玄畅2014.12.29About最近在优化kcore算法时,对Graphx代码看了几遍。1.2后Graphx性能有所提升,代码不太容易理解,现在用图表示出来会更直观。对数学上的图有点印象的是x轴、y轴坐标图,坐标中每个点用横坐标x和纵坐标y表示,即: (x1, y1), (x2, y2), 一个坐标点可以确定一个点的唯一转载 2015-08-13 12:03:21 · 5362 阅读 · 0 评论 -
Apache Arrow:一个跨平台的内存数据交换格式
1、Apache Arrow:一个跨平台的内存数据交换格式Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工转载 2016-03-11 11:25:44 · 3889 阅读 · 0 评论 -
《Spark MLlib 机器学习》第二章代码
《Spark MLlib 机器学习》第二章代码2.1 Spark RDD 操作import org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import org.apache.spark.SparkContext._object rdd_test01 { def原创 2016-04-12 16:11:23 · 14725 阅读 · 0 评论 -
《Spark MLlib 机器学习》第三章代码
《Spark MLlib 机器学习》第三章代码3.1 Breeze 介绍package book_codeimport org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import breeze.linalg._import breeze.numerics._imp原创 2016-04-12 17:39:42 · 10257 阅读 · 0 评论 -
Spark应用程序运行日志查看
比如,Spark应用程序代码如下: defseq(a: Int, b: Int): Int = { println("seq: " + a + "\t "+ b) math.max(a, b) } defcomb(a: Int, b: Int): Int = { println("comb: " + a + "\t "+ b) a + b } vardata11= sc.原创 2016-05-20 20:27:57 · 22182 阅读 · 0 评论 -
《Spark MLlib 机器学习》勘误(持续更新)
《Spark MLlib 机器学习》勘误(持续更新)原创 2016-04-18 14:53:43 · 6372 阅读 · 0 评论 -
《Spark MLlib 机器学习》细节解释(持续更新)
1、 P220对该段文字的解决:得到最大bin 数量后,求最大split 数量。对于无序特征,split = bin 数目/2;对于有序特征,split = bin 数目–1。 其中有读者问到:对于无序特征,split = bin 数目/2这个的由来,解释如下: 1)首先计算numBins: // 当前的特征数量小于m值,则认为无序 if (numCate原创 2016-04-21 18:30:04 · 13761 阅读 · 0 评论 -
Spark ML 基础:DataFrame、Dataset、feature
Spark ML 是基于DataFrame/ Dataset进行机器学习API的开发,随着Spark 2.0的发展,Dataset将成为主流,会逐步取代RDD、DataFrame,当然这个取代只是在Dataset实现已有RDD、DataFrame的API,大家以后就可以用Dataset的API来实现计算逻辑,所以大家不用担心之前学会的RDD、DataFrame没有用处。博主一般喜欢从源码的角度来看原创 2016-05-25 14:02:36 · 19916 阅读 · 1 评论 -
Spark 2.0 技术预览版: Easier, Faster, and Smarter
For the past few months, we have been busy working on the next major release of the big data open source software we love: Apache Spark 2.0. Since Spark 1.0 came out two years ago, we have heard prais转载 2016-05-12 11:49:48 · 7173 阅读 · 3 评论 -
Spark MLlib 机器学习算法与源码解析(网络课程—第一期)
《Spark MLlib 机器学习算法与源码解析》spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。目前,Spark成为了现在大数据领域最火的开源软原创 2016-05-11 17:12:36 · 13322 阅读 · 3 评论 -
《Spark MLlib机器学习》已正式上市发售
《Spark MLlib机器学习》已正式上市发售,请大家多多支持!!!!购书地址:http://product.dangdang.com/23934484.htmlhttp://item.jd.com/11902946.htmlhttps://www.amazon.cn/Spark-MLlib%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E7%AE%9原创 2016-04-11 11:22:23 · 7768 阅读 · 3 评论 -
《Spark MLlib 机器学习》第十五章代码
《Spark MLlib 机器学习》第十五章代码1、神经网络类package NNimport org.apache.spark._import org.apache.spark.SparkContext._import org.apache.spark.rdd.RDDimport org.apache.spark.Loggingimport org.apache.spark.mlli原创 2016-04-13 15:27:17 · 13584 阅读 · 8 评论 -
《Spark MLlib 机器学习》第十四章代码
《Spark MLlib 机器学习》第十四章代码1、相似度计算package recommendimport scala.math._import org.apache.spark.rdd.RDDimport org.apache.spark.SparkContext._/** * 用户评分. * @param userid 用户 * @param itemid 评分物品 *原创 2016-04-13 15:21:51 · 8398 阅读 · 0 评论 -
《Spark MLlib 机器学习》第四章至十三章代码
《Spark MLlib 机器学习》第四章 至 第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6原创 2016-04-13 15:17:19 · 7561 阅读 · 0 评论 -
Spark GraphX Programming Guide 编程指南
6、 Spark GraphX Programming Guide6.1 概述GraphX是spark的一个新组件用于图和并行图计算。在一个高水平,GraphX通过引进一个新的图抽象扩展了spark RDD:带有顶点和边属性的有向多重图。为了支持图计算,GraphX 提供了很多基本的操作(像 subgraph, joinVertices, and aggregateMessages转载 2015-08-13 14:38:09 · 3387 阅读 · 0 评论 -
Spark MLlib 核心基础:向量 And 矩阵
1、Spark MLlib 核心基础:向量 And矩阵1.1 Vector1.1.1 dense vector源码定义: * Creates a dense vector from its values. */ @varargs def dense(firstValue: Double, otherValues: Double*): Vector =原创 2015-04-23 17:47:21 · 9312 阅读 · 0 评论 -
Spark MLlib FPGrowth算法
1.1 FPGrowth算法1.1.1 基本概念关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的相关术语如下:(1)项与项集这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Ite原创 2015-05-09 16:35:21 · 14750 阅读 · 2 评论 -
Spark MLlib SVM算法
1.1 SVM支持向量机算法支持向量机理论知识参照以下文档:支持向量机SVM(一)http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html支持向量机SVM(二)http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html支持向量机(三)原创 2015-05-08 17:18:08 · 10923 阅读 · 1 评论 -
Spark Streaming之二:DStream解析
1.0前言目前Spark Streaming编程指南地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html1.1基本说明1.1.1 DurationSpark Streaming的时间类型,单位是毫秒;生成方式如下:原创 2015-01-24 21:34:42 · 9252 阅读 · 0 评论 -
Spark1.x RDD基本操作
1. Spark1.x RDD基本操作 Spark官方文档:http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations1.1. Transformations1.1.1. 创建RDD1、数组创建RDD从普通数组创建RDD,里面包含了1到9这9个数字,它们分别在3个分区中。原创 2014-12-16 16:34:45 · 2126 阅读 · 0 评论 -
Spark1.x编译与安装
1. Spark1.x编译与安装1.1. 基础准备见《1、基础准备(JDK、Maven、服务器配置)》。1.2. Hadoop集群准备见《2、Hadoop2.2.0 编译与安装》1.3. Scala安装1) 下载集群中每台机器安装Scala;Scala官方下载地址:http://www.scala-lang.org/download/原创 2014-12-16 16:34:03 · 2197 阅读 · 0 评论 -
Spark构建推荐引擎之二:基于Spark Streaming 实时推荐计算
1、Spark构建推荐引擎之二:基于Spark Streaming 实时推荐计算1.1 数据输入模型1)用户数据输入数据格式:用户ID,物品ID,点击次数。2)相似矩阵输入数据格式:物品ID,物品ID,相似度1.2 物品相似矩阵 采用SparkContext读取物品的相似矩阵: //2 sc 读取相似矩阵 valsimi_path1 ="原创 2015-02-03 20:44:12 · 4727 阅读 · 1 评论 -
Spark—基于物品的协同过滤推荐算法
1、Spark—基于物品的协同过滤推荐算法1.1 离线计算—物品的相似度矩阵输入数据格式:用户ID,物品ID,评分输出结果格式:物品ID1,物品ID2,相似度Spark程序代码如下:// #0 设置输入输出 val inputpath = "hdfs://192.168.180.10:9000/user/input" val outputpat原创 2014-12-24 10:00:49 · 5589 阅读 · 2 评论 -
基于Spark构建推荐引擎之一:基于物品的协同过滤推荐
1、Spark构建推荐引擎之一:基于物品的协同过滤推荐1.0 前言目前SparkMLlib支持的推荐算法只有alternating least squares (ALS)这一种,相比较Mahout中的推荐算法,SparkMLlib目前不能支持目前的业务需求;因此,参照Mahout的推荐引擎,在Spark上构建同样一套推荐算法,以支持各种业务需求。目前SparkMLlib官方网址:h原创 2015-01-15 10:14:04 · 13028 阅读 · 5 评论 -
Spark脚本提交/运行/部署
1、Spark脚本提交/运行/部署 1.1 spark-shell(交互窗口模式)运行spark-shell需要指向申请资源的standalone spark集群信息,其参数为MASTER,还可以指定executor及driver的内存大小。sudo spark-shell --executor-memory 5g --driver-memory1g --master spark原创 2014-12-23 10:17:25 · 6733 阅读 · 0 评论 -
Spark Streaming之一:StreamingContext解析
1.0 前言目前Spark Streaming编程指南地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html1.1 创建StreamingContext对象1.1.1通过SparkContext创建源码如下:def this(sparkContext:SparkCon原创 2015-01-21 12:04:43 · 7430 阅读 · 0 评论 -
Spark MLlib Statistics统计
1、Spark MLlib Statistics统计Spark Mllib统计模块代码结构如下:1.1列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。 //读取数据,转换成RDD[Vector]类型 valdata_path ="/home/jb-huangmeiling/sample_stat.txt"原创 2015-05-11 15:06:46 · 9279 阅读 · 0 评论 -
Spark MLlib KMeans聚类算法
1.1 KMeans聚类算法1.1.1 基础理论KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心;(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点原创 2015-05-12 19:13:05 · 10910 阅读 · 0 评论 -
Spark Mlib BLAS线性代数运算库
1.4 BLAS (BLAS routines for MLlib's vectors and matrices.)BLAS(Basic Linear Algebra Subprograms,基础线性代数程序集)是一个应用程序接口(API)标准,用以规范发布基础线性代数操作的数值库(如矢量或矩阵乘法)。BLAS按照功能被分为三个级别: Level 1:矢量-矢量运算Leve原创 2015-05-05 17:25:06 · 10153 阅读 · 2 评论 -
Spark MLlib NaiveBayes 贝叶斯分类器
1.1朴素贝叶斯公式贝叶斯定理: 其中A为事件,B为类别,P(B|A)为事件A条件下属于B类别的概率。朴素贝叶斯分类的正式定义如下: 1、设为一个待分类项,而每个a为x的一个特征属性。 2、有类别集合。 3、计算。 4、如果,则 。 那么现在的关键就是如何计算第3步中的各个条件概率:原创 2015-04-29 11:28:06 · 5811 阅读 · 1 评论