Spark的启动进程详解

最新推荐文章于 2024-07-10 21:29:08 发布

weixin_30855099

最新推荐文章于 2024-07-10 21:29:08 发布

阅读量384

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/huangleshu/p/10121521.html

Master和Worker是执行任务之前存在的进程 (类似于公司)

Driver和Excutor是任务执行之后存在的进程(类似于公司接到项目后才成立的项目小组)

启动步骤:

启动Master资源管理进程和Work进程
有任务来执行时会启动Driver进程,然后向Master资源管理进程进行注册并申请资源
Master资源管理进程分配资源给Worker进程
Work进程开启Executor进程, Worker进程向Master进程报告Executor的状态
Executor(持有Driver对象引用)在启动开始时会先向Driver进行注册,

注测的目的:

将执行的Executor放入到Driver的Executor集合中,以便Executor发出心跳检测信号和Driver进行接收并更新时间后, 进行超时检测
Driver划分任务后可以分配任务给Driver
Executor注册完毕后, Driver会划分任务(Task),然后调度任务(Task)给注册的Executor去执行
Executor执行任务(Task)时会向Driver报告任务执行状态,直到执行完
任务执行完后,Executor进程会消失, 最后Driver进程也会向Master进程进行注销

转载于:https://www.cnblogs.com/huangleshu/p/10121521.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30855099

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark[一]——Spark的进程们[Driver、Master、Worker、Executor]

qq_35583915的博客

10-29

3039

Spark[一]——Spark的进程们[Driver、Master、Worker、Executor] 一、背景知识 1.进程进程是一个具有一定独立功能的程序在一个数据集上的一次动态执行过程，是操作系统进行资源分配和调度的一个独立单位，是应用程序运行的载体，进程包括程序、数据集合和进程控制块三部分。程序用于描述进程要完成的功能，是控制进程执行的指令集；数据集合石程序在执行时所需要的数据和工作区；程序控制块包含进程的描述信息和控制信息，是进程存在的唯一标识。 2.线程线程是程序执行中一个单一的顺序执行控制流

spark 进程

09-21

1653

History Server 上有一个相关进程，启动用户是spark，父进程是cloudera-scm-agent。提交spark程序的机器有一个进程，启动用户是提交程序的用户，这里是hdfs，父进程是1，系统内核进程。线程可以直接看到SparkSubmit相关信息。 Executor(Streaming任务) 进程的启动过程：(yarn-cluster模式的Driver 也是同样过程。)

参与评论您还未登录，请先登录后发表或查看评论

Spark集群启动后进程的简单介绍

yjh314的专栏

11-10

1258

刚开始学习Spark，首先看一下Spark集群启动之后都会产生哪些进程，方便查看集群是否启动正常。首先介绍下我的Spark集群是以Hadoop的HDFS作为分布式文件存储系统，资源管理系统既可以使用Hadoop的Yarn，也可以使用Spark自带的Standalone模式，当然也可以使用其他的资源管理系统，例如Mesos、EC2等。我的测试集群是一个master节点和4个worker节点

Spark任务运行详解

威廉的大数据实验室

05-13

5105

威廉将向大家展示如何在Spark集群上部署运行我们自己的程序

spark、Hadoop等部分相关进程注解

u013303361的专栏

07-06

540

pid(jps例子)进程名意义注5178Masterspark master 6633Workspark slave一般跟master分开99CoarseGrainedExecutorBackendspark Executor进程standalone 和yarn一样的4147Kafkakafka 6131QuorumPeerMainzookeeper进程每台都有6453HRegionServerH...

【spark床头书系列】如何在YARN上启动Spark官网权威详解说明

wang2leee的博客

10-10

523

在YARN上可以使用两种部署模式来启动Spark应用程序。在 `cluster` 模式下，Spark driver 在由YARN在集群上管理的应用程序主进程中运行，客户端在启动应用程序后可以退出。在 `client` 模式下，driver 在客户端进程中运行，应用程序主进程仅用于从YARN请求资源

Spark应用程序WebUI详解.docx

06-18

### Spark Web UI 详解 #### 一、Spark Web UI 概览 Spark Web UI 是一个图形化的用户界面，用于监控正在运行的 Spark 应用程序的状态。它提供了丰富的信息，帮助用户了解应用程序的运行情况、性能瓶颈以及资源...

Apache Spark详解

vbgesab的博客

07-10

1713

请注意，这只是一个高层次的示例，实际银行业务的数据处理流程会更加复杂，包括更多的数据清洗步骤、特征工程、模型选择和调优。通常是为了处理大规模数据集，执行复杂的数据分析和机器学习任务，然后将结果存储回数据库，并通过Django的Web界面或API展示这些结果。这可能需要在你的Django设置文件中配置Spark的配置参数，或者在你的代码中动态设置。通过这些步骤，你可以将Spark的强大数据处理和分析能力集成到Django项目中，实现从数据加载、处理、分析到结果展示的完整流程。

Apache Spark 内存管理详解

11-07

在执行Spark应用时，集群会启动两种类型的JVM进程：Driver和Executor。Driver进程主要负责创建Spark上下文、提交作业(Job)以及协调任务(Task)的调度；而Executor进程则在各个工作节点上执行具体的计算任务，并为需要...

spark-core05 spark运行进程解读

weixin_43866666的博客

02-02

157

spark运行进程解读 Application => driver programe + n executors on cluster 都是进程 Driver program => main() + SparkContext Cluster manager => standalone | mesos | YARN Deploy mode => client | cluster 模式 Worker node => run application Executor => 进

Spark各个组件的概念，Driver进程

weixin_30667301的博客

11-08

1352

spark应用涉及的一些基本概念： 1.mater:主要是控制、管理和监督整个spark集群 2.client：客户端，将用应用程序提交，记录着要业务运行逻辑和master通讯。 3.sparkContext：spark应用程序的入口，负责调度各个运算资源，协调各个work node上的Executor。主要是一些记录信息，记录谁运行的，运行的情况如何等。这也是为什么编程的时候必须要创建一个...

linux中spark启动进程命令以及顺序

m0_45502588的博客

01-10

1633

linux中spark启动进程命令以及顺序 1）首先启动hadoop ① 在Master节点上进入hadoop安装目录下，执行sbin/start-dfs.sh ② 在Slave1节点上进入hadoop安装目录下，执行sbin/start-yarn.sh ③ 在Master节点上进入hadoop安装目录下，执行sbin/mr-jobhistory-daemon.sh start historyse...

Spark学习_4（spark的启动方式解析）

weixin_38942735的博客

06-20

352

引言：通过Spark-shell的交互式编程，有利于在spark学习的初级阶段练习和掌握基本的API，由于spark框架采用的scala语言就行开发的，所以使用spark-shell命令也会默认进入到scala的交互式执行环境中。 spark启动命令在配置好了的系统中运行Spark-shell。就可以进入到交互式执行环境中。命令和参数如下： ./bin/spark-shell --master master-url 其中master-url表示spark的运行模式 master-url 含义

spark进程、端口号

qq_45292079的博客

08-31

1029

spark的组件挂掉的影响及解决方案

大数据学习之路68-spark各个进程的作用简介与yarn的对比

爱米酱的博客

09-08

657

我们之前知道了客户端为了连接到Master，需要指定--master,但是我们如果使用高可用的话，master有可能有多个。那我们到底连接哪个？我们不知道，所以我们就都写上。我们甚至还可以通过--executor-memory指定以后真正执行任务的内存有多大 bin/spark-shell --master spark://marshal7077,marshal01:7077 --execut...

Spark入门

blackrock233的博客

03-04

2580

Spark的基本使用和一些常见问题

Spark 进程模型与分布式部署：什么是分布式计算？

小林玩大数据

01-25

3083

什么是分布式计算？

spark启动全过程

最新发布

04-30

### Apache Spark 启动全过程详解 Apache Spark 的启动过程涉及多个组件之间的交互，主要包括集群管理器的选择、Driver 和 Executor 的初始化以及资源分配等阶段。以下是 Spark 启动过程的技术细节： #### 1. 集群模式选择 Spark 支持多种部署方式，包括 Standalone 模式、YARN 模式、Mesos 模式和 Kubernetes 模式。用户可以在提交应用时通过 `--master` 参数指定集群管理模式。例如，在 YARN 上运行的应用程序可以通过设置 `yarn-client` 或 `yarn-cluster` 来决定 Driver 是否在客户端运行。当用户提交一个 Spark 应用时，Spark 提交脚本（如 `spark-submit`）会解析配置文件并根据所选的 Master URL 初始化相应的环境[^1]。 #### 2. SparkContext 创建在应用程序中，开发者通常通过创建 `SparkSession` 或者更底层的 `SparkContext` 对象来启动 Spark 应用。这一阶段的主要工作如下： - **加载配置**：从默认配置文件（如 `conf/spark-defaults.conf`）、命令行参数或者动态设定的属性中加载 Spark 配置。 - **初始化调度器**：创建 TaskScheduler 并注册到 Cluster Manager 中。TaskScheduler 负责任务分发，而 DAGScheduler 则负责将逻辑计划转化为物理执行计划。 - **绑定监听器**：为事件总线绑定各种 Listener，用于监控作业进度和其他元数据更新。 ```scala val conf = new SparkConf().setAppName("MyApp").setMaster("local[*]") val sc = new SparkContext(conf) ``` #### 3. 注册至集群管理器一旦 SparkContext 成功构建完成之后，它便会尝试联系选定好的 Resource Manager (RM)，比如对于 standalone cluster mode 下来说就是 master node；而在 yarn client/server modes 当中则是 ResourceManager daemon 运行所在位置。此时 driver program 将发送 register request 请求告知 RM 自己的存在状态及其所需资源规格信息(cores, memory etc.)以便后续安排 executors 实例化事宜[^4]。 #### 4. Executors 分配与启动 Cluster Manager 接收到 RegisterApplication 消息后，依据当前系统的负载情况以及其他约束条件（像 locality preferences），逐步批准申请并将实际可用 slot 数量反馈给 Client Side(Driver Process)。随后便进入 LaunchExecutor phase —— 即由 Worker Nodes 执行特定 shell script 去实例化 java process 形式的 worker threads(pool size determined by parameter settings like 'spark.executor.cores') ，从而形成完整的 distributed computing framework structure. 值得注意的是，在整个生命周期里，除非显式终止 session/stop context operation 发生之前，所有已分配出去 resources including both cpu time slots alongside corresponding physical memories will be reserved exclusively dedicated solely towards serving this single job only without interruption unless otherwise specified beforehand via advanced tuning parameters such as dynamic allocation mechanism enabled under certain circumstances.[^1] #### 5. 数据处理流程随着 executor nodes 正常上线运作起来以后，接下来便是围绕 input datasets 展开的一系列 transformation & action operations 定义出来的 pipeline execution chain 。每当遇到某个 stage boundary point where shuffling becomes necessary due to key-value pair redistributions across partitions boundaries , system automatically triggers another round of resource negotiation processes similar described above but specifically targeting those newly generated intermediate results files stored temporarily within local filesystem directories managed separately per individual tasks involved during previous stages executions . 最后值得一提提一下 shuffle read/write mechanisms implemented inside block manager components which play crucial roles ensuring efficient data transfers between different machines located geographically far away from each other yet still maintaining high performance levels thanks largely contributed efforts made possible through sophisticated algorithms designed around network protocols selection strategies mentioned earlier regarding netty vs nio implementations choices affecting overall latencies experienced throughout entire end-to-end pipelines constructed based upon user supplied business logics encoded into their custom written map/reduce functions bodies passed along side regular api calls sequences invoked sequentially following standard library conventions established over years development iterations cycles continuously improving codebases maintained actively open source communities worldwide today ![^3] --- ###