宽窄依赖/宽窄巷子——spark

原创于 2024-12-12 21:52:44 发布 · 701 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #数据库 #spark #分布式

大数据组件的使用专栏收录该内容

47 篇文章

订阅专栏

宽窄依赖是用于标记算子是否需要shuffle过程的

——本质：只是一种标记，标记两个RDD之间的依赖关系，用于判断是否需要进行shuffle

窄依赖：Narrow Dependencies

定义：父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle】特点：一对一或者多对一，不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。

宽依赖：Wide/Shuffle Dependencies

定义：父RDD的一个分区的数据给了子RDD的多个分区【需要调用Shuffle的分区器来实现】特点：一对多，必须经过Shuffle，性能相对较慢，可以实现全局分区、排序、分组等 Spark的job中按照宽依赖来划分不同的Stage

为什么要标记宽窄关系？

1）提高数据容错的性能，避免分区数据丢失时，需要重新构建整个RDD

场景：如果子RDD的某个分区的数据丢失
不标记：不清楚父RDD分区与子RDD分区数据之间的关系，必须重新构建整个父RDD所有分区数据
标记了：父RDD一个分区只对应子RDD的一个分区，按照对应关系恢复父RDD的对应分区即可

2）提高数据转换的性能，将连续窄依赖操作使用同一个Task都放在内存中直接转换

如果不标记，怎么知道哪些算子需要shuffer呢？
————就只能把数据放在磁盘，让shuffer算子，去拉取数据，效率低

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zmd-zk

关注关注

15
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark【理论篇】03：宽依赖和窄依赖以及Spark任务三种提交模式

weixin_40612128的博客

03-09

2609

Spark【理论篇】03：宽依赖和窄依赖以及Spark任务三种提交模式

Spark07：宽窄依赖、Stage的划分

anglemanyi的博客

02-01

1288

也就是说，每一个父RDD的partition中的数据都可能会传输一部分到下一个RDD的每个partition中。一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父RDD和子RDD的partition之间的对应关系，是一对一的。（2）再看下面，RDD G到RDD F，产生了宽依赖，所以RDD F属于一个Stage，因为RDD F和 RDD C、D、E 这几个RDD没有产生宽依赖，都是窄依赖，所以他们属于一个Stage。

参与评论您还未登录，请先登录后发表或查看评论

liujiesxs的博客

08-16

753

Spark

窄依赖和宽依赖

qq_20174285的博客

01-08

250

RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。宽依赖父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。宽窄依赖图理...

Spark宽窄依赖详解

热门推荐

modefrog的博客

03-16

2万+

1.宽窄依赖图中左边是宽依赖，父RDD的4号分区数据划分到子RDD的多个分区（一分区对多分区），这就表明有shuffle过程，父分区数据经过shuffle过程的hash分区器（也可自定义分区器）划分到子RDD。例如GroupByKey，reduceByKey，join，sortByKey等操作。图右边是窄依赖，父RDD的每个分区的数据直接到子RDD的对应一个分区（一分区对一分区），例如1号到5号...

Spark中的宽窄依赖-宽窄巷子

GDDGHS_的博客

11-03

575

窄依赖父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle一对一或者多对一不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。宽依赖父RDD的一个分区的数据给了子RDD的多个分区【需要调用Shuffle的分区器来实现】一对多，必须经过Shuffle，性能相对较慢，可以实现全局分区、排序、分组等Spark的job中按照宽依赖来划分Stage本质：只是一种标记，标记两个RDD之间的依赖关系。

成都宽窄巷子设计分析PPT

01-26

【案例】成都宽窄巷子设计分析.ppt

成都宽窄巷子历史文化保护区景观设计.ppt

12-08

“成都宽窄巷子历史文化保护区景观设计”旨在通过保护和改造这一具有深厚历史底蕴的区域，打造一个既保留传统韵味又能融合现代生活方式的多功能公共空间。项目定位为“包容、低调、奢华”，力求在历史的痕迹与现代...

王志纲：成都宽窄巷子文化传承与创新专题研究.pdf

07-07

宽窄巷子是成都历史文化名城的重要组成部分，它不仅承载了丰富的历史文化遗产，还见证了成都从清末至今的城市变迁和发展。以下将从宽窄巷子的历史沿革、改造转型、文化传承与创新、运营模式以及文化成就五个方面详细...

spark如何进行聚类可视化_基于Spark的出租车轨迹处理与可视化平台

weixin_42311301的博客

12-23

2774

由于城市化进程加剧以及汽车数量增加, 城市交通问题日益严重[, 通过分析各种空间数据解决交通问题是当前研究的热点. 出租车提供广泛且灵活的交通运输服务, 是城市交通的重要组成部分. 出租车轨迹数据记录了城市道路与居民的流动信息, 对出租车轨迹数据的挖掘分析有助于城市智慧交通[的建设, 有利于制定合理的城市交通政策、合理配置城市公共交通、缓解城市交通拥堵.随着经济进步与空间信息技术的发展, 出租车轨...

宽依赖和窄依赖

https://blog.youkuaiyun.com/sinat_36710456

01-03

1761

声明：本文已对原博客适当添改（亲测有效），便于本人理解。可通过底部链接访问原博客。宽依赖与窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用。宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition，会引起shuffle。宽依赖和窄依赖如下图所示：窄依赖的函数有：map, fi...

Spark的宽窄依赖

mthgh-mjj

12-07

1001

对于Spark的宽窄依赖问题，总是看的时候感觉自己明白了，过段时间不接触了就好像又不懂了。这回试着先给自己讲明白。 rdd的依赖关系是指上一个算子形成的rdd跟下一个算子形成的rdd 分区之间的对应关系，分为宽依赖和窄依赖。首先，书本上的定义：窄依赖是指每个父RDD的分区都至多被一个子RDD的分区使用父RDD视角下父：子 = 1：1 宽依赖是指多个子RDD的分区依赖一个父RDD的分区父RDD视角下父：子 = 1：多从节点数据丢失后的恢复效率来看这里的恢复应该是从子节点数据倒推

RDD 宽窄依赖

weixin_30716725的博客

07-21

180

RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖窄依赖，不会有shuffle的产生父RDD和子RDD partition关系是一对一的父RDD和子RDD partition关系是多对一的宽依赖，会有shuffle的产生父RDD与子RDD partition之间的数据关系是一对多转载于...

spark-宽窄依赖

DCHAO的博客

10-20

3205

这是rdd论文中的图，可见，宽窄依赖划分的依据并不是是否产生了网络io，而是一个分区的数据是否发生了拆分，注意，是拆分，合并不算

Spark RDD宽窄依赖

陈小哥cw

09-02

546

RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。 1.窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结：窄依赖我们形象的比喻为独生子女父RDD和子RDD partition之间的关系是一对一的。父RDD和子RDD partition之间的关系是...

宽依赖与窄依赖

disgocloser的博客

07-08

685

窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用。宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition，。

spark 宽窄依赖

leofionn的博客

03-22

428

宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用，子RDD分区通常对应常数个父RDD分区(O(1)，与数据规模无关)ShuffleDependency和Hadoop MapReduce中Shuffle的数据依赖相同相应的，宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用，子RDD分区通常对应所有的父RDD分区(O(n)，与数据规模有关)NarrowDependenc...

RDD理解及宽依赖和窄依赖

小白成小黑

08-03

1万+

1）RDD概念：Resilient Distributed Datasets 弹性分布式数据集，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作（transformation操作）而创建。RDD可看作一个spark的对象，它本身存在于内