sparksql数据倾斜那些事儿

原创

已于 2022-06-27 11:17:56 修改 · 1.8k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#java #大数据 #开发语言

于 2022-06-27 11:13:19 首次发布

本文深入探讨了数据倾斜在Hadoop Spark Flink中的现象，分析其原理，列举了shuffle倾斜、读倾斜和写倾斜的场景，并详细介绍了应对策略，包括过滤倾斜key、调整并行度、广播join、随机数优化等，旨在帮助开发者提升大数据处理效率。

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、数据倾斜是什么？
二、数据倾斜发生的现象
三、数据倾斜发生原理
四、数据倾斜产生场景
五、数据倾斜的危害
六、数据倾斜的解决方案
总结

前言

对 Hadoop Spark Flink 这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。

一、数据倾斜是什么？

何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一task处理的的数据量或者时间显著多于其它部分，从而使得该部分的处理速度成为整个任务处理的瓶颈。简单来说数据倾斜就是key的分化严重不均。

二、数据倾斜发生的现象

1、绝大多数 task 执行得都非常快，但个别 task 执行极慢。比如，总共有 1000 个 task，997 个 task都在 1 分钟之内执行完了，但是剩余两三个 task 却要5倍，10倍，甚至给多时间才能完成。这种情况很常见。
在这里插入图片描述

2、原本能够正常执行的 Spark 作业，某天突然报出 OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见。

三、数据倾斜发生原理

在进行 shuffle 的时候，必须将各个节点上相同的 key 拉取到某个节点上的一个 task 来进行处理，比如按照 key 进行聚合或 join 等操作。此时如果某个key 对应的数据量特别大的话，就会发生数据倾斜。比如大部分 key 对应 10 条数据，但是个别 key 却对应了 100 万条数据，那么大部分 task 可能就只会分配到 10 条数据，然后 1 秒钟就运行完了；但是个别 task 可能分配到了 100 万数据，要运行一两个小时。因此，整个 Spark 作业的运行进度是由运行时间最长的那个 task 决定的。

因此出现数据倾斜的时候，Spark 作业看起来会运行得非常缓慢，甚至可能因为某个 task 处理的数据量过大导致内存溢出。
在这里插入图片描述