Spark的stage & job & task 到底是什么 ,以及划分原理

这几个概念很容易混淆,需要写一遍文章梳理

Spark的stage & job & task 到底是什么 ,以及划分原理


Stage 是spark 中一个非常重要的概念 ,

在一个job 中划分stage 的一个重要依据是否有shuflle 发生 ,也就是是否会发生数据的重组 (重新组织数据)。

在一个stage 内部会有很多的task 被执行,在同一个stage 中 所有的task 结束后才能根据DAG 依赖执行下一个stage 中的task.

job 有很多任务组成,每组任务可以任务是一个stage

Task 是spark 中另一个很重要的概念 ,

task 跟 partition  block 等概念紧密相连 ,task 是执行job 的逻辑单元 ,在task 会在每个executor 中的cpu core 中执行

Job 是一个比task 和 stage 更大的逻辑概念,

job 可以认为是我们在driver 或是通过spark-submit 提交的程序中一个action ,在我们的程序中有很多action  所有也就对应很多的jobs


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值