2、Spark基础知识学习

本文探讨了Spark中弹性分布式数据集(RDD)的概念及其在内存中的存储方式,旨在提高迭代和交互操作效率。同时,深入分析了在reduceByKey操作中出现的数据倾斜问题,并提出了一种解决方案:通过在shuffle前增加map操作来临时改变key,均衡节点负载。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、弹性分布式数据集(RDD):如下图所示,对于Spark而言,每次MR完成,会将结果存在分布式内存当中,从而节省在IO上花费的时间

             迭代操作

    

             交互操作

         

2、处理数据倾斜

      现象:reduceBykey的时候,由于很多key是相同的,所以无论节点开启的是多少,总会有那么几台节点机器的压力非常大

 

  解决方法:通过在shuffle环节之前,增加一个map操作,将上面的key暂时改变

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值