
Spark内核源码
文章平均质量分 88
lazy_moon
不积跬步无以至千里,武艺不精何以保家乡
展开
-
【Spark内核源码】Word Count程序的简单分析
目录启动Spark Shell日志级别的设置解析word count程序第0步:设置日志级别(“可选”)第1步:读取文件第2步:将每行的内容根据空格进行拆分成单词第3步:设置每一个单词的计数为1第4步:单词根据Key进行计数值累加聚合第5步:输出结果与分析刚接触Spark那会,还是Spark1.3版本,那时觉得Spark好厉害,但由于能力和工作的原因,没有沉...原创 2018-09-15 15:58:39 · 658 阅读 · 0 评论 -
【Spark内核源码】SparkContext一些方法的解读
目录创建SchedulerBackend的TaskScheduler方法设置并启动事件总线发布环境更新的方法发布应用程序系统的方法在【Spark内核源码】SparkContext中的组件和初始化 已经介绍了Spark初始化时是如何执行的,都创建了哪些组件。这些组件具体技术细节后面会慢慢的说,而针对SparkContext,里面还有一些方法,值得大家品一品。创建Schedul...原创 2018-12-03 12:56:51 · 819 阅读 · 0 评论 -
【Spark内核源码】SparkContext中的组件和初始化
目录SparkContext概述SparkContext组件概述SparkContext初始化过程第一步:确保当前线程中没有SparkContext在运行第二步:版本反馈第三步:真正的初始化第四步:确认启动成功SparkContext概述在【Spark内核源码】Word Count程序的简单分析 当中使用Spark Shell编写了简单的Word Count程序...原创 2018-11-18 14:53:59 · 4066 阅读 · 1 评论 -
【Spark内核源码】事件总线ListenerBus
目录消息总线ListenerBus异步事件处理LiveListenerBus增加事件listenerThread处理事件消息总线ListenerBusorg.apache.spark.util.ListenerBus处理来自DAGScheduler、SparkContext、BlockManagerMasterEndpoint等组件的事件,是整个Spark框架体系内事件处理...原创 2018-11-02 16:36:48 · 492 阅读 · 0 评论 -
【Spark内核源码】内置的RPC框架,Spark的通信兵(二)
目录RPC管道处理TransportChannelHandlerRPC服务端处理RpcHandler引导程序BootstrapRPC客户端TransportClient总结接着【Spark内核源码】内置的RPC框架,Spark的通信兵(一) 接着分析RPC管道处理TransportChannelHandlerTransportContext最后一个作用就是使用org...原创 2018-11-01 17:44:15 · 664 阅读 · 0 评论 -
【Spark内核源码】内置的RPC框架,Spark的通信兵(一)
目录RPC上下文TransportContextRPC配置TransportConfRPC客户端工厂TransprotClientFactoryRPC服务端TransportServer作为一个分布式计算引擎,既然是分布式,那么网络通信是肯定少不了的,在Spark中很多地方都涉及到了网络通信,各个组件之间消息传输、用户文件和资源的上传、Shuffle过程、Block的数据复制与...原创 2018-11-01 14:23:05 · 721 阅读 · 0 评论 -
【Spark内核源码】解析“spark-shell”(二)
接着【初探Spark内核】解析“spark-shell”(一)来看根据main的执行日志来看,我们直接看一下org.apache.spark.repl.Main.main方法:main方法中创建了SparkILoop对象,作为参数传递给了doMain方法,并调用了doMain方法。在doMain方法中进行了jar包的加载和设置,便开始执行SparkILoop的precess方法...原创 2018-10-10 21:00:23 · 288 阅读 · 0 评论 -
【Spark内核源码】SparkConf,Spark的配置管控
目录概述从系统中获取并设置配置信息使用SparkConf提供的方法设置配置信息通过克隆的方式设置配置信息 总结概述SparkConf,以KEY-VALUE对的形式设置Spark的配置参数。我们编写Spark应用程序时,也会先创建SparkConf,并配置一些参数,再传递给SparkContext。下面试对SparkConf的源码进行的分析。SparkConf位于Sp...原创 2018-10-15 20:02:55 · 1648 阅读 · 0 评论 -
【Spark内核源码】Spark源码环境搭建
目录准备条件下载spark源码,并解压打开spark源码下的pom.xml文件,修改对应的java和intellij里的maven版本打开intellij,Inport Project,将源码导入intellij中问题总结(十分重要)Maven编译打包前的准备Maven编译打包准备条件1、下载安装intellij2、下载安装jdk1.83、下载安装scala...原创 2018-10-09 23:34:43 · 2075 阅读 · 0 评论 -
【Spark内核源码】解析“spark-shell”(一)
目录脚本分析远程监控之前使用spark-shell,编写了一个word count程程序【初探Spark内核】Word Count程序的简单分析 ,spark-shell究竟都为我们做了些什么,下面就好好分析一下。脚本分析当我们输入指令“spark-shell”的时候,我们是调用了SPARK_HOME/bin/spark-shell脚本。这个脚本大致的调用过程是这样的:...原创 2018-09-27 23:05:35 · 319 阅读 · 0 评论 -
【Spark内核源码】Spark基本概念及特点
目录Hadoop MapReduce的不足Spark的基本概念RDDDAGPartitionNarrowDependencyShuffleDependencyJobStageTaskShuffleSpark的基本组件Cluster ManagerWorkerExecutorDriverApplicationSpark的特点...原创 2018-10-12 13:46:46 · 307 阅读 · 0 评论 -
【Spark内核源码】Spark执行环境,SparkEnv
目录SparkEnv简述解析create方法0、解析之前1、建立安全管理器securityManager2、建立RpcEnv3、创建serializerManager和closureSerializer4、创建广播管理器broadcastManager5、创建map输出跟踪器mapOutputTracker6、构建存储体系7、创建地量系统metricsSys...原创 2018-12-18 08:36:41 · 832 阅读 · 0 评论