Spark 之 shuffle 相关的算子

博客介绍了Spark中会产生Shuffle的操作类型,包括repartition类(如repartition等)、byKey类(如reduceByKey等)、join类(如join等),并说明了各类操作产生Shuffle的原因。同时给出使用建议,即尽量不用Shuffle操作,若使用则需调优并解决数据倾斜问题。

目录

  • 1、repartition 类
  • 2、byKey类
  • 3、join类
  • 4、使用建议

1、repartition 类

repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等。

重分区: 一般会shuffle,因为需要在整个集群中,对之前所有的分区的数据进行随机、均匀地打乱,然后把数据放入下游新的指定数量的分区内。

2、byKey类

byKey类的操作:比如reduceByKey、groupByKey、sortByKey等。

byKey类的操作:因为你要对一个key,进行聚合操作,那么肯定要保证集群中,所有节点上的相同的key,一定是到同一个节点上进行处理。

3、join类

join类的操作:比如join、cogroup等。

两个rdd进行join,就必须将join 相同 key的数据,shuffle到同一个节点上,然后进行相同key的两个rdd数据的笛卡尔乘积。

4、使用建议

第一原则,能不用shuffle操作,就尽量不用shuffle操作,尽量使用不shuffle的操作;
第二原则,如果使用了shuffle操作,那么肯定要进行shuffle的调优,甚至是解决碰到的数据倾斜的问题。

### Spark产生 Shuffle算子及其使用场景 #### 1. **repartition** `repartition` 是一种转换算子,其主要功能是调整 RDD 的分区数量。通过重新分配数据到新的分区中,该算子会触发一次全局的 shuffle 操作[^1]。 - **语法**: `def repartition(self, numPartitions) -> RDD[T]` - **使用场景**: 当需要增加或减少分区数时,通常用于优化计算性能或满足下游处理需求。 #### 2. **sortBy** `sortBy` 算子会对 RDD 中的所有元素进行整体排序,并允许指定自定义的排序规则以及升序/降序选项。由于涉及全量数据的排序操作,因此不可避免地会产生 shuffle[^3]。 - **语法**: `def sortBy(self, keyFunc: (T) -> K, ascending: bool = True, numPartitions: int = None)` - **参数说明**: - `keyFunc`: 定义如何提取键值以决定排序依据。 - `ascending`: 是否按升序排列,默认为 `True`。 - `numPartitions`: 排序后的分区数目。 - **使用场景**: 需要对大规模非 Key-Value 类型的数据集执行全面排序的任务。 #### 3. **reduceByKey 和 groupByKey** 这些算子属于宽依赖操作,在处理过程中需要将具有相同键的记录聚集在一起,从而引发 shuffle 行为。 - **reduceByKey**: 对每组共享同一键的值应用聚合逻辑。 - **groupByKey**: 将拥有相同键的所有值收集至单个列表中返回。 - **使用场景**: 数据分组统计分析、汇总运算等场合下广泛采用。 #### 4. **join 及其他关联类算子** 当两个分布式数据集之间存在连接关系时(如 inner join、left outer join),为了匹配对应的键值组合,必然会发生跨节点间的数据交换即 shuffle 过程。 - **典型例子**: ```python rdd1.join(rdd2) ``` - **适用范围**: 处理多源异构数据融合问题时常被调用。 以上列举了几种常见的会引起 shuffle 效应的操作符连同它们各自的应用环境描述。值得注意的是,尽管 shuffle 能够提供强大的灵活性支持复杂查询模式,但它同时也可能成为系统瓶颈所在之处,因为涉及到大量的磁盘 I/O 和网络传输开销。 ```python # 示例代码展示 reduceByKey 使用方法 rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)]) result = rdd.reduceByKey(lambda x, y: x + y).collect() print(result) # 输出 [('a', 2), ('b', 1)] ``` 问题
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值