
spark
zccao_gong
收获不止spark!
展开
-
Spark源码系列(一)spark-submit提交作业过程
终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个Driver Program的过程。作业提交方法以及参数我们先看一下用Spark Submit提交的方法吧,下面是从官方上面摘抄的内容。# Run on a Spar原创 2015-07-24 12:13:51 · 2270 阅读 · 0 评论 -
Spark要点
Spark要点:内存计算,DAG;RDD:Resilient Distributed Dataset 弹性分布式数据集RDD可以基于工作集应用RDD特征:有很多partition(数据分片),并行度从上一个RDD继承;每个split(数据分片)对应一个函数function(),函数处理就是以任务方式运行;RDD依赖一组其他的RDD;对于key-value RD原创 2016-09-14 11:53:50 · 450 阅读 · 0 评论