【Spark基础】-- 宽窄依赖

本文介绍了Spark中的宽窄依赖概念,窄依赖保证了数据处理的局部性,而宽依赖则涉及到数据的shuffle过程,增加了计算的复杂性和延迟。文章详细阐述了窄依赖与宽依赖的区别,并列举了相应的算子示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1、前言

2、宽窄依赖

2.1 窄依赖

2.2 宽依赖

3、宽窄转换的算子


1、前言

        要理解宽窄依赖,首先我们需要了解 Transformations,什么是 Transformations?在 Spark 中,核心的数据结构是不可变的,这意味着它们一旦创建就不能更改。这看起来可能是个比较奇怪的概念,如果不能更改,那要怎么使用它呢?要 "change"一个 DataFrame,我们必须提示 Spark 如何将我们拥有的 DataFrame 修改成我们想要的样子。这些操作称为 Transformations。Transformations 是使用 Spark 表达业务逻辑的核心。Transformations 有两种类型,一种是指定窄依赖关系的转换,另一种是指定宽依赖关系的转换。

2、宽窄依赖

2.1 窄依赖

       由窄依赖关系组成的 Transformations (我们称为窄转换)是指每个输入分区只对一个输出分区有贡献的转换。窄转换的表示,如下图:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oo寻梦in记

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值