Spark数据倾斜解决方案一：源数据预处理和过滤倾斜key

SunnyRivers

已于 2023-07-11 09:21:40 修改

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark最佳实战与性能优化文章标签： spark 大数据数据倾斜数据倾斜解决思路数据倾斜解决方案

于 2023-06-09 09:47:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Android_xue/article/details/131107166

Spark最佳实战与性能优化专栏收录该内容

38 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了两种Spark数据倾斜的解决方案：通过Hive ETL预处理数据，以及过滤倾斜的key。Hive ETL可在业务需求允许时预先聚合或join，避免Spark中的数据倾斜，但可能使Hive ETL变慢。过滤倾斜key适用于少量关键数据倾斜且不影响业务的情况。总结强调在理解业务场景基础上选择合适的数据倾斜策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

前言

为什么把源数据预处理和过滤掉倾斜的key两种处理倾斜的方式写到一起？

因为这两种方式在实际的项目中场景较少而且单一，对于数据源预处理，比如原本要在spark中进行聚合或join的操作，提前到hive中去做，这种方式虽然解决了spark中数据倾斜的问题，但是hive中依然也会存在；而过滤倾斜的key的场景就更加少了。

不过虽然少见，也需要有这样的解决问题思维。

使用Hive ETL预处理数据

适用场景
导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀（比如某个key对应了100万数据，其他key才对应了10条数据），而且业务场景需要频繁使用Spark对Hive表执行某个分析操作，那么比较适合使用这种技术方案。
实现思路
此时可以评估一下，是否可以通过Hive来进行数据预处理（即通过Hive ETL预先对数据按照key进行聚合，或者是预先和其他表进

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SunnyRivers 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。