spark
我是小水杯
坚持就是胜利
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark源码解析-作业执行过程
1. 引入通过前一篇介绍spark submit的文章,我们知道如果以客户端模式最终运行的是–class指定类的main方法,这也是执行作业的入口。接下来,我们就以一个简单的例子,说明作业是如何执行的。2.作业执行过程val sparkConf = new SparkConf().setAppName("earthquake").setMaster("local[2]")val sc = ...原创 2019-11-28 15:26:59 · 495 阅读 · 0 评论 -
spark源码解析目录
spark版本: 2.0.01. spark源码解析-master流程分析2. spark源码解析-rpc原理3.spark源码解析-worker启动4.spark源码解析-分析一次完整的远程请求过程5.spark源码解析-sparkSubmit分析...原创 2019-11-28 15:01:20 · 302 阅读 · 0 评论 -
spark源码解析-sparkSubmit分析
1.引入为了简单测试项目功能,我们可能只需要使用spark-shell就可以完成,但是企业级项目我们都是先打包好之后使用spark-submit脚本完成线上的spark项目部署。./bin/spark-submit \--class com.example.spark.Test \--master yarn \--deploy-mode client \/home/hadoop/dat...原创 2019-11-25 22:48:25 · 373 阅读 · 0 评论 -
spark源码解析-分析一次完整的远程请求过程
spark版本: 2.0.01.概念1.引入前面已经介绍了master启动,worker启动和rpc原理,现在结合这些,来探究一下一次完整的远程请求到底是咋样的?就以worker启动后注册到master为例,我们来细细品味一下其远程服务调用过程。2.远程服务请求过程worker注册到master的方法是masterEndpoint.ask[RegisterWorkerResponse...原创 2019-11-25 21:17:35 · 335 阅读 · 0 评论 -
spark源码解析-worker启动
1.概念worker是执行任务的真正服务,它可以管理多个executors,并向master汇报任务的执行情况,现在让我们看看它的启动过程。由于worker启动过程和master启动过程有一定相通之处,所以在阅读本文之前,请先阅读master的启动过程。2.worker启动在启动spark时,需要执行脚本sh start-slaves.sh,其最终是调用org.apache.spark.d...原创 2019-11-25 15:54:02 · 439 阅读 · 0 评论 -
spark源码解析-rpc原理
1.概念spark是分布式服务,需要涉及到大量的网络通信以及远程服务调用(rpc),在1.6前spark使用的是akka实现,但是考虑到akka兼容性问题,最后舍弃,改为netty。这篇文章就将介绍基于netty的rpc服务是如何运作的。在前一篇文章中介绍了master的启动过程,但是其中对rpcEnv这部分介绍的很少,所以我将从上篇文章创建rpcEnv位置说明spark中的服务是如何通信的。...原创 2019-11-22 23:25:40 · 406 阅读 · 0 评论 -
spark源码解析-master流程分析
1. 引入master负责管理spark的元数据,实现spark任务监控,调度等,现在就来介绍一下master启动过程。2. Master流程在start-master.sh脚本中可以发现最终调用的是org.apache.spark.deploy.master.Master的main方法。现在来看一下这个方法有什么? def main(argStrings: Array[String]) ...原创 2019-11-22 15:56:38 · 437 阅读 · 0 评论
分享