spark专业术语解释

本文深入解析Spark的重要术语,包括Application/App、Driver、Cluster Manager、Worker和Executor。重点阐述RDD及其依赖,如Narrow Dependency和Shuffle Dependency,以及DAG、DAGScheduler、TaskScheduler、Job、Stage和TaskSet的概念。每个Job由DAG图表示,Action操作触发Job,Stage和Task定义了计算任务的执行流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Application/App

	指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。
	提示:当对RDD操作代码都是运行在Executor中代码
	使用不同语言,编写代码不一样:
		Java/Scala语言:编译以后Class文件
		Python语言:脚本文件

在这里插入图片描述

Spark应用程序,由一个或多个作业JOB组成(因为代码中可能会调用多次Action)

每个Job就是RDD执行一个Action函数:没有返回值,或者返回值不是RDD

Driver

	Spark中的Driver即运行Application的Main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。

在这里插入图片描述

在Spark中由SparkContext负责和ClusterManager通信,进行资源的申请、任务的分配和监控等;
	SparkContext向RM或Master申请资源,运行Executor进程(线程池)。
当Executor部分运行完毕后,Driver负责将SparkContext关闭。

Cluster Manager

指的是在集群上获取资源的外部服务,常用的有:
1)Standa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值