简述Spark的宽窄依赖,以及Spark如何划分Stage,每个Stage又根据什么决定task个数?

本文介绍了Spark中RDD的两种依赖类型:窄依赖和宽依赖,并通过类比生动阐述了它们的区别。窄依赖保证了一个父RDD分区只被一个子RDD分区使用,而宽依赖可能导致父RDD的分区被多个子RDD分区依赖,涉及数据shuffle。Stage的划分基于RDD间的依赖关系,遇到宽依赖即划分新的Stage。每个Stage内的Task数量由RDD的分区数决定。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 窄依赖:——类比于独生子女
    父RDD的一个分区只会被子RDD的一个分区依赖;
  2. 宽依赖:——类比于多生
    父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle);
  3. Stage是如何划分的?
    根据RDD之间的依赖关系的不同将job划分成不同的Stage,遇到一个宽依赖则划分一个stage;
  4. 每个Stage又根据什么决定task个数?
    Stage是一个TaskSet,将Stage根据分区数划分成一个个的Task
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值