spark2.2.0源码学习
猫耳山大王
不可一日无书,不可气量如鼠
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark2.2.0源码学习过程记录:Day7
1、读《apache spark 源码剖析》第四章第3节、第五章 上面读的这些部分中,暂时只关心第五章部署方式分析中的第4节的内容(5.4 原生集群Standalone Cluster),所以就一直读到了这章结束,下面开始看源码 2、源码学习 Standalone Cluster方式启动集群时,只要有两条线:Master、Worker(其中还有Executor的启动) Ma原创 2017-09-09 18:12:24 · 464 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day5
1、读《apache spark 源码剖析》第四章第2.3节任务的创建和分发 2、源码学习 类DAGScheduler 首先看DAGScheduler类的submitMissingTasks方法, 方法中首先取得了需要计算的partitions 然后根据stage的类型(ShuffleMapStage或ResultStage)使用outputCommitCoordin原创 2017-09-02 16:07:46 · 424 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day4
1、读《apache spark 源码剖析》第四章第1节作业提交 我也使用简单的WordCount例子sc.textFile("/hdfs-site.xml").flatMap(line=>line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)来学习 2、源码学习 把例子像书中一样分成了几个子句,在命令行中敲了一下,看看转原创 2017-09-02 16:07:21 · 436 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:序
因为之前并没有系统学习过某个项目源码,为了能更流畅的进入到学习状态,更高效的学习,决定一边看《apache spark源码剖析》一边学习。 希望可以写成一个系列博客,这个博客并不会去分析spark的源码实现架构等等高深的问题,只是如实的做一个自己学习的记录,以供以后参考。原创 2017-08-26 22:44:40 · 500 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day1 Day2
Day1 就像上学时候第一节课都不是正式上课,我第一天的学习也只是看了一些博客,以及《apache spark 源码剖析》的前面两张(概念介绍和环境搭建等) 1、先看博客,有总体感觉,预热 http://www.cnblogs.com/hframe/p/6735123.html 2、看《apache spark 源码剖析》第一章、第二章 Day2 第二天开始看源原创 2017-08-26 22:57:50 · 654 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day3
Day3 1、读《apache spark 源码剖析》第三章第3.2节、3.3节 因为3.3节的内容是是讲repl的,我暂时并不关系,所以这部分内容看看书就可以了 而3.2节的内容是讲SparkContext的初始化,比较重要,这部分要看完书后自己再看下源码 2、源码学习 书中3.2节讲的是SparkContext的初始化,但是我学习的版本是2.2.0,初始化是Spark原创 2017-09-02 16:05:42 · 1700 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day10
1、读《apache spark 源码剖析》第七章第2节 接着昨天的来 2、源码学习 DataSet中的ofRows方法调用了sparkSession.sessionState.executePlan,返回一个QueryExecution对象 类SessionState 类注释A class that holds all session-specific state in原创 2017-09-09 18:13:57 · 479 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day9
由于工作原因,今天需要学习一下FileSystem等类 类FileSystem 通用的文件系统,他主要有两个实现LocalFileSystem、DistributedFileSystem,分别是本地文件系统和hdfs文件系统 使用Cache类来存放已经创建过的FileSystem以复用他们 使用statisticsTable来统计每个FileSystem类的统计信息(文件系统中有多原创 2017-09-09 18:13:15 · 476 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day8
1、《apache spark 源码剖析》浏览第六、七、八、九章 后面的几章中只准备学习其中的spark sql部分,所以首先全部浏览了一下,再回过头来看第七章 2、读《apache spark 源码剖析》第七章第1节、第2.1节 SQL语句在分析执行过程中会经理几个步骤:(1)语法解析。(2)操作绑定。(3)优化执行策略。(4)交付执行。 3、源码学习 从书中看出入口类原创 2017-09-09 18:12:45 · 1287 阅读 · 0 评论 -
spark2.2.0源码学习过程记录:Day6
1、读《apache spark 源码剖析》第四章第2节2.4任务执行、2.5节Checkpoint和Cache、2.6节WebUI和Metrics 由于后面两个小节我目前并不关心,所以暂时只读一下就好 2、源码学习 类Executor 顺序读这个类,很快看到launchTask方法,这个方法创建一个TaskRunner,然后放到runningTasks队列中,然后使用th原创 2017-09-02 16:08:24 · 465 阅读 · 0 评论
分享