数据倾斜

最新推荐文章于 2022-05-26 08:40:03 发布

秃头小姐

最新推荐文章于 2022-05-26 08:40:03 发布

阅读量223

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop 文章标签：大数据 hadoop

16 篇文章

订阅专栏

本文深入解析数据倾斜现象，探讨其产生原理，列举常见的原因，并提供针对不同类型问题的解决方案，包括map端预处理、调整Reducer数量和散列函数，以及针对特定SQL操作的优化策略。通过实例和代码演示，帮助读者理解和应对Hive和Spark中的数据倾斜问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

就是在计算数据的时候，数据的分散度不够，导致大量的数据集中到了集群中的一台或者几台机器上计算，而集群中的其他节点空闲。这些倾斜了的数据的’计算速度远远低于’平均计算速度，导致整个计算过程过慢。

以Spark和Hive的使用场景为例数据运算的时候会涉及到，'count distinct、group by、join on'等操作，这些都会触发'Shuffle'动作。一旦触发Shuffle，所有'相同key'的值就会被拉到'一个或几个Reducer'节点上，容易发生单点计算问题，导致数据倾斜。

要么将 reduce 端的隐患在 map 端就解决，要么就是对 key 的操作，以减缓reduce 的压力

MapReduce阶段：

导致数据倾斜的数据分布分布在相同的mapper
- 提前在map进行combine，减少传输的数据量
  即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量
导致数据倾斜的数据分布分布在不同的Mapper
- 增加Reducer，提升并行度
- 根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer
小表join大表：
问题：
小表key值集中，shuffle全到一个reduce
解决：
使用 MapJoin把小表全部加载到内存在map端进行join。如果需要的数据在 Map 的过程中可以访问到则不再需要Reduce
大表join小表
问题：
大表与大表join，但是分桶的判断字段0值或空值过多，会交给同一个reduce处理
解决：
给null换成一个字符串加随机数，null本身无意义，加上后对结果无影响