Spark 宽窄依赖和stage的划分

最新推荐文章于 2024-10-10 21:00:26 发布

aoren1305

最新推荐文章于 2024-10-10 21:00:26 发布

阅读量280

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/Alcesttt/p/11514375.html

版权

窄依赖

父RDD和子RDD partition之间的关系是一对一的，或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。

不会有shuffle的产生，父RDD的一个分区去到子RDD的一个分区。

多对一或者一对一

可以理解为独生子女

宽依赖

父RDD与子RDD partition之间的关系是一对多。

会有shuffle的产生，父RDD的一个分区的数据去到子RDD的不同分区里面。

一对多

可以理解为超生

常见的宽窄依赖

窄依赖：filter map flatmap mapPartitions

宽依赖：reduceByKey grupByKey combineByKey，sortByKey, join(no copartition)

Stage

Spark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage

划分stage的整体思路

从后往前推，遇到宽依赖就断开，划分为一个stage；遇到窄依赖就将这个RDD加入该stage中。

转载于:https://www.cnblogs.com/Alcesttt/p/11514375.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aoren1305

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark的宽窄依赖

Buutoorr的博客

09-20

2966

浅谈宽窄依赖及流水线优化

Spark RDD 的宽依赖和窄依赖

z1941563559的博客

11-20

1127

每个团队只需要关注自己的分工，完成自己的任务。例如，一个人将纸张折好，直接传递给下一个人装订，每个步骤只依赖于上一个人完成的内容。这种方式下，任务之间关系简单，直接传递，效率较高。例如，一个人需要从三个不同团队拿到原料，然后再组合成一个产品。这种情况下，团队之间的协调工作多，传递的过程复杂，时间和资源的开销更大。：一个 RDD 的每个分区（partition）仅依赖于父 RDD 中的一个分区。：一个 RDD 的某个分区依赖于父 RDD 中的多个分区。）的数据会被重新分组到一个分区，触发。

参与评论您还未登录，请先登录后发表或查看评论

【Spark篇】--Spark中的宽窄依赖和Stage的划分

L先生AI课堂

02-05

481

一、前述 RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。 Spark中的Stage其实就是一组并行的任务，任务是一个个的task 。二、具体细节窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffl...

Spark stage划分和宽窄依赖

u012137473的博客

12-14

372

Spark stage划分和宽窄依赖宽窄依赖Stage的划分宽窄依赖 RDD之间的有一系列的关系，主要分为宽依赖和窄依赖。下面是各自的定义，以及图解。窄依赖父RDD partition 和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的 partition情况下的父RDD和子RDD关系是多对一的。不会有shuffle的产生。例如 ma...

窄依赖与宽依赖&stage的划分依据

weixin_30914981的博客

04-06

657

RDD根据对父RDD的依赖关系，可分为窄依赖与宽依赖2种。主要的区分之处在于父RDD的分区被多少个子RDD分区所依赖，如果一个就为窄依赖，多个则为宽依赖。更好的定义应该是：窄依赖的定义是子RDD的每一个分区都依赖于父RDD的一个或者少量几个分区（不依赖于全部分区）与依赖相关的以下5个类： Dependency <--NarrowDependency <--On...

Spark宽依赖：根据宽依赖切分stage

学亮编程手记

07-03

352

Stage的划分

LuRenJiang的博客

04-17

2826

介绍 Stage是Spark独有的概念，是对RDD进行范围描述的东西。原理 Stage划分是从最终结果RDD从后往前，通过递归来划分stage，循环到最后会把所有rdd划分为一个Stage（可以结合Stage的源码来理解这句话）为什么要根据宽窄依赖划分Stage？在此之前一定要先理解宽依赖和窄依赖的概念：宽依赖和窄依赖每个宽依赖的处理均会是一个stage的划分点。可以这么简单的理解：宽...

Spark分布式计算原理(宽窄依赖，DAG，stage划分，shuffle过程，Spark计算引擎原理)

小财迷嘻嘻的博客

11-11

655

文章目录1、RDD依赖1.1 依赖关系1.2 窄依赖1.3 宽依赖1.4 宽依赖对比窄依赖2、DAG3、stage划分3.1 为什么要写在本地3.2 移动算子而不是移动数据4、Spark Shuffle过程5、Spark计算引擎原理 1、RDD依赖 Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系。 Lineage：血统、遗传。RDD最重要的特性之一，保存了RDD的依赖关系；RDD实现了基于Lineage的容错机制。 1.1 依

Spark之RDD内核原理，RDD的依赖关系，宽窄依赖的算子，DAG有向无环图

qq_55006020的博客

10-10

1076

Spark之RDD内核原理，RDD的依赖关系，宽窄依赖的算子，DAG有向无环图

Spark作业调度中stage的划分

蔡政洁的博客

05-11

3142

目录（1）Spark作业调度（2）RDD依赖关系（3）Stage的划分（1）Spark作业调度（2）RDD依赖关系（3）Stage的划分

spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理)

微电子学与固体电子学-俞驰

05-05

1988

[1]宽依赖和窄依赖，这是Spark计算引擎划分Stage的根源所在，遇到宽依赖，则划分为多个stage，针对每个Stage，提交一个TaskSet：上图：一张网上的图：基于此图，分析下这里为什么前面的流程都是窄依赖，而后面的却是宽依赖：我们仔细看看，map和filter算子中，对于父RDD来说，一个分区内的数据，有且仅有一个子RDD的分区来消费该数据。同样，UNION算子也是...

Spark07：宽窄依赖、Stage的划分

anglemanyi的博客

02-01

1216

也就是说，每一个父RDD的partition中的数据都可能会传输一部分到下一个RDD的每个partition中。一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父RDD和子RDD的partition之间的对应关系，是一对一的。（2）再看下面，RDD G到RDD F，产生了宽依赖，所以RDD F属于一个Stage，因为RDD F和 RDD C、D、E 这几个RDD没有产生宽依赖，都是窄依赖，所以他们属于一个Stage。

宽依赖窄依赖+stage划分

Tomorrow never comes

03-06

3045

1.RDD的依赖关系1.1 WordCount中的RDDRDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。1.2 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结：窄依赖我们形象的比喻为独生子女1.3 宽依赖宽依赖指的是多个子RDD的Partitio...

Spark中stage的划分以及宽窄依赖的详解

Mage的博客

11-23

1508

1.宽依赖与窄依赖 RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的 partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。宽依赖父RDD与子RDD partition之间的关系是一对多。会有...

Spark宽窄依赖详解

热门推荐

modefrog的博客

03-16

2万+

1.宽窄依赖图中左边是宽依赖，父RDD的4号分区数据划分到子RDD的多个分区（一分区对多分区），这就表明有shuffle过程，父分区数据经过shuffle过程的hash分区器（也可自定义分区器）划分到子RDD。例如GroupByKey，reduceByKey，join，sortByKey等操作。图右边是窄依赖，父RDD的每个分区的数据直接到子RDD的对应一个分区（一分区对一分区），例如1号到5号...

spark 中如何划分stage？

Shadow

07-04

1万+

1.从hdfs中读取文件后，创建 RDD 对象 2.DAGScheduler模块介入运算，计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage，划分Stage的一个主要依据是当前计算因子的输入是否是确定的，如果是则将其分在同一个Stage，避免多个Stage之间的消息传递开销。以下面一个按 A-Z 首字母分类，查找相同首字母下不同姓名总个数的例子来看

Spark Stage的划分

精益求精

09-14

2万+

RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务，任务是一个个的task 。窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。父RDD的一个分区去到子RDD的...

spark 2版本中stage划分和stage作业提交详解

u013716507的博客

04-12

3856

spark、stage、submit

我的面试－－spark中如何划分stage

忍哥的博客

04-21

6999

2.spark中如何划分stage窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区两个父RDD的分区对应于一个子RDD 的分区。宽依赖指子RDD的每个分区都要依赖于父RDD的所有分区，这是shuffle类操作Stage:一个Job会被拆分为多组Task，每组任务被称为一个Stage就像Map Stage， Reduce Stage。Stag...

spark宽依赖和窄依赖