spark
文章平均质量分 78
JoeYangY
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark源码阅读笔记:任务提交流程整理
在介绍完TaskScheduler和DAGScheduler后,整个提交流程就很清楚了,在这里做一个小小的总结。action动作触发RDD的runjob,runjob将rdd和最终调用的function以及一些配置信息和监听器回调传给DAGScheduler。DAGScheduler根据传入的RDD先创建一个finalStage,然后向前搜索产生这个RDD前,由transformati原创 2014-10-23 14:57:15 · 1286 阅读 · 0 评论 -
Spark源码阅读笔记:DAGScheduler
前言有个前辈给我提了建议,他觉得我这种方式写源码分析文档有点记流水帐的意思,意义并不是很大。我觉得他说得很有道理,想了以后,也觉得每必要一点点说,针对几个重点着重讲一下自己的看法和感悟就行了。DAGScheduler简介那么本篇文档要搞的是DAGScheduler,虽然前面几篇文章多多少少有所涉及DAGScheduler,这里还是简单地介绍一下。原创 2014-10-23 14:14:42 · 1219 阅读 · 0 评论 -
Spark源码阅读笔记:Spark的数据系统之cache篇
如果说spark是一把在大数据处理领域的快刀,那么spark的存储系统设计及管理等相关模块就算不是刀尖,也算得上十分锋利的刀锋了,由于工作需要,我会伴着源码来深入学习一下,这里做一个记录备忘。RDD的cache和persist谈到spark存储,第一反应先想到了RDD里的cache和persist。如果从RDD中的cache方法作为入口来看,cache与persist殊途同原创 2014-11-06 11:16:51 · 4202 阅读 · 0 评论 -
Spark源码阅读笔记:Standalone模式集群核心角色代码浅析
其实原计划是先搞定Spark的数据系统以后再来看这部分的,但是在分析数据系统的过程中发现这部分代码要是不搞清除很难继续搞下去,所以就暂时让它插个队了。关于spark集群中的一些角色的粗略介绍可以看这里 http://blog.youkuaiyun.com/joeyangy/article/details/40182945,我这里条理比较乱,看到哪算哪,总的来说还是以流程驱动的(我称之为“记传体”....^_^原创 2014-11-13 22:03:27 · 1163 阅读 · 0 评论 -
Spark源码阅读笔记:DriverProgram初始化
作为代码阅读的入口,先写个最最简单的DriverProgram初始化代码作为入口,如下:valconf=newSparkConf().setAppName("SparkTest")valsc=newSparkContext(conf)SparkConf先简单描述一下SparkConf,重点还是在SparkContext,以下描述为源码描述的翻译。Spar原创 2014-10-17 14:35:58 · 1387 阅读 · 0 评论 -
Spark源码阅读笔记:Spark集群中各个角色介绍
在阅读代码之前,需要先介绍一下Spark集群,主要参考了官网上的描述、源码以及源码注释,而关于Spark的其他一些概念,《RDD:基于内存的集群计算容错抽象》这篇论文已经讲得足够牛叉了,而且很权威,我就不扯淡了。 先原创 2014-10-17 11:05:09 · 2831 阅读 · 0 评论 -
Spark源码阅读笔记:Spark的Task
前文稍微分析了一下standalone模式中几个集群核心角色的代码,这将是后面分析下去的基础。本文是前文的进一步补充。TASK的产生 因为笔者习惯带着目的跟着线索走,所以对于shuffle过程实际上是在不同的task之间传递数据的过程,要找到相关的代码和流程,我们就先把着眼点定在task这端,先分析一下Spark中的task,再来看shuffle。 前文有提过,最终在exe原创 2014-11-23 10:33:51 · 1884 阅读 · 0 评论 -
Spark源码阅读笔记:TaskScheduler
前言前面两篇分别大概介绍了一下Spark集群中几个角色和driver启动流程。那么本篇将以前面两篇文档中的线索为起点,来分析一下SparkContext中,同时也是driver program甚至整个Spark应用流程中最为重要的组件之一——TaskSchedular,代码啥的我就尽量不贴了,有需要的同学对着源码看吧,以后其他文档也是这个路数,说一下代码在哪就行,自己找着看更全面也更好原创 2014-10-21 15:34:31 · 1295 阅读 · 0 评论 -
Spark的IndexedRDD
昨天又看到了IndexedRDD,趁着恰好有时间就好好看了一下原理,顺便拿出来分享一下。这个问题的地址:https://issues.apache.org/jira/browse/SPARK-2365 目测后面会在正式版中放出来。IndexedRDD的设计目的是为了解决下面这些问题:1.join操作效率低下。2.更新或删除RDD中某条记录需要全部复制一遍。3.查找某条记录需要原创 2015-02-05 11:22:33 · 2627 阅读 · 0 评论
分享