
Spark
GatsbyNewton
这个作者很懒,什么都没留下…
展开
-
Spark MLlib之机器学习(一)
1.定义先看一下机器学习的定义,以下是Wikipedia的定义:Machine learning is a scientific discipline that explores the construction and study of algorithms that can learn from data.当然,要说的更接地气点儿,就是让机器会学习,那怎么样才能让机器学习呢?那就需原创 2015-09-29 21:43:44 · 1624 阅读 · 0 评论 -
Spark MLlib之机器学习(三)
上一篇我们简单了解了Spark MLlib中的Supervised Learning,那么这一篇,我们主要介绍Unsupervised Learning。本篇介绍的内容有:KMeans、PCA(Principal Conponent Analysis)和SVD(Singular Value Decomposition)。1.Unsupervised Learning(非监督学习)首先,我们原创 2015-10-05 17:16:52 · 2609 阅读 · 1 评论 -
Spark MLlib之机器学习(二)
通过上一篇的简介,我们对Spark MLlib的基础有了一些了解。那么,从这一篇开始,我们进入实战阶段。因为是介绍Spark MLlib的应用,所以我这里不会详细介绍算法的推导,后续我会抽时间整理成专题进行介绍。而这一篇主要介绍Spark MLlib中的监督学习算法:Logistics Regression、Naive Bayes、SVM(Support Vector Machine)、Decis原创 2015-10-03 12:27:46 · 2164 阅读 · 1 评论 -
Spark源码系列之Spark内核——Shuffle
在Hadoop中有一个阶段——Shuffle,Shuffle存在于Map和Reduce之间。同样在Spark中也存在Shuffle,而且Shuffle影响着Job的性能。尽管Spark尽可能的减少Shuffle,但是操作却需要Shuffle来完成(如,groupByKey、sortByKey、reduceByKey、distinct等)。假设有Map Tasks=M,Reduce Tasks=原创 2016-01-07 11:21:36 · 1012 阅读 · 0 评论 -
Spark GraphX(一)
1.基础Spark中属性图是由VertexRDD和EdgeRDD两个参数构成的。其中,每个vertex由一个唯一的64位长的标识符(VertexId)作为key。同时,属性图也和RDD一样,是不可变的、分布式的、可容错的。属性图Graph的定义如下:abstract class Graph[VD, ED]{ val vertices: VertexRDD[VD] val edges:原创 2015-11-08 19:29:14 · 2549 阅读 · 1 评论 -
Spark源码系列之Spark内核——Storage模块
1.Storage模块架构Storage模块分为两部分:通信层:Storage模块的通信层通过Master/Slave模型实现的。Master和Slave之间传输控制信息、状态信息。存储层:Storage模块可以数据存储在Memory或Disk上,可能还会replicate到远程服务器上。2.通信层BlockManager包装了BlockManagerMaster,发送原创 2016-01-04 16:22:18 · 1563 阅读 · 0 评论 -
Spark源码系列之Spark内核——Task运行
在详细介绍前,还是让我们先看看Task运行的流程,先有个整体的感觉:Executor收到序列化的Task后,先反序列化取出正常的Task,然后运行Task得到执行结果directResult,这个结果要送到Driver那里。但是发送的数据包不宜过大,通过对directResult大小的判断,进行不同的处理。如果directResult比较大,就把directResult存放到本地“Me原创 2016-01-02 14:40:36 · 1151 阅读 · 0 评论 -
Spark源码系列之Spark内核——Job提交
在介绍Job提交之前,我们先看下Job提交的过程:看完上图只会,大家应该会有一个比较直观的了解,同时也便于对整个流程的把握。DAGScheduler在RDD触发Action算子时,会调用sc.runJob(),以count算子为例:def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum原创 2015-12-28 12:38:53 · 998 阅读 · 0 评论 -
Spark RDD详解
本文详细介绍了Spark RDD。涵盖了RDD是什么,RDD的产生,在Spark中的地位和作用,以及使用方法等等。原创 2015-07-25 22:46:47 · 1134 阅读 · 0 评论 -
SparkSQL(一)
Spark支持两种方式将RDDs转为为SchemaRDDs:一种方法是使用反射来推断包含特定对象类型的RDD的模式(schema);一种方法是通过编程接口来实现,这个接口允许你构造一个模式,然后在存在的RDDs上使用它。1.反射推断模式Spark SQL的Scala接口支持将包含case class的RDDs自动转换为SchemaRDDs。而case class定义了表的模式。case原创 2015-11-02 20:17:06 · 887 阅读 · 0 评论 -
基于Spark实现的超大矩阵运算
由于标题强调了是在Spark平台实现的矩阵运算,所以本文会非常有针对性的介绍,甚至细节到Spark RDD的算子。1.算法描述思想其实很简单,就是矩阵分块计算,而分块矩阵就成了小矩阵,然后就借助于Breeze实现。而对于Spark平台而言,其处理流程如下图:2.矩阵分块依据这里仅仅提供一种思路,所以仅供参考。假设有两个矩阵A和B,其中A是m*k的矩阵,B是k*n的矩阵,CP原创 2015-11-10 21:27:02 · 13098 阅读 · 3 评论 -
Spark-1.2部署
本文详细介绍了spark-1.2.2的部署全过程,参考这个部署基本上都能成功,记得该部署是基于JDK和Hadoop部署成功之后。原创 2015-07-19 10:56:54 · 842 阅读 · 0 评论 -
SparkSQL(二)
SparkSQL可以处理多种类型的数据,本文就简单的以Parquet、Json、Relation Database为主线介绍下SparkSQL的处理过程。1.Parquet formatParquet是一种柱状的数据存储结构,特别针对大数据的存储和处理。Parquet有两个优势:一是数据加载量小,如有100行记录但仅取10行,在基于行的存储中需要加载100行记录,但在Parquet中,原创 2015-11-04 20:52:24 · 1123 阅读 · 0 评论 -
【SparkSQL】聊一聊 Join
聊一聊 SparkSQL 的 3 种 Join转载 2019-09-30 20:19:25 · 227 阅读 · 0 评论