
spark源码剖析
Mate40Pro陶瓷白
好好学习,天天向上
展开
-
spark源码剖析(一,job调用流程)
最近领导让做一次关于spark的分享,于是专门把spark的流程看了一边,做一下记录, 也是为了练练markdown,仅此而已。 版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBook Pro ##从RDD开始 在spark中,一个action算子触发真正的计算,我们看下RDD上的count /** * Return the number o...原创 2019-08-25 21:44:31 · 373 阅读 · 0 评论 -
spark中shuffle算子汇总
版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBook Pro 我们先在idea中搜素一下ShuffleDependency 可以看到,生成的依赖是ShuffleDependency的RDD有 CoGroupedRDD ShuffledRDD SubtractedRDD 然后我们分别看下什么算子产生了这些RDD ShuffledRDD 我们...原创 2019-08-26 16:34:37 · 841 阅读 · 0 评论 -
spark源码剖析(二,ShuffleReader)
版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBook Pro spark的shuffle过程连接了job的前后两个stage 除了第一个stage的数据是读取hdfs,hbase,hive等等之外 其他的stage的数据都要利用ShuffleReader抓取数据 ShuffleReader ShuffleReader是一个trait, 从注释看,...原创 2019-08-28 23:22:27 · 285 阅读 · 0 评论 -
估算the JVM heap中object占用内存大小
org.apache.spark.util.collection.SizeTracker#takeSample spark在shuffle的read和write阶段,都涉及到采样估算集合占用内存大小 /** * Take a new sample of the current collection's size. */ private def takeSample(): Unit...原创 2019-09-11 16:36:42 · 316 阅读 · 0 评论