hive数据倾斜问题

最新推荐文章于 2025-06-17 10:22:57 发布

原创

最新推荐文章于 2025-06-17 10:22:57 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据

本文详细探讨了在大数据计算中遇到Hive数据倾斜的问题，包括map端和reduce端倾斜的成因及解决策略。建议包括合并小文件、调整map和reduce任务数量、使用mapjoin、处理null值关联和不同类型数据关联等，还提到了count(distinct)操作的优化方法以及join和Group操作的优化策略。

数据倾斜是进行大数据计算时常见的问题。主要分为map端倾斜和reduce端倾斜，map端倾斜主要是因为输入文件大小不均匀导致，reduce端主要是partition不均匀导致。

在hive中遇到数据倾斜的解决办法：

一、倾斜原因：map端缓慢，输入数据文件多，大小不均匀

当出现小文件过多，需要合并小文件。可以通过set hive.merge.mapfiles=true来解决。

set hive.map.aggr=true; //map端部分聚合，相当于Combiner，可以减小压力(默认开启)

set hive.groupby.skewindata=true(默认关闭);//有数据倾斜的时候进行负载均衡，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中)，最后完成最终的聚合操作。

单个文件大小稍稍大于配置的block块的大写，此时需要适当增加map的个数。解决方法：set mapred.map.tasks个数

文件大小适中，但map端计算量非常大，如select id,count(*),sum(case when...),sum(case when...)...需要增加map个数。解决方法：set mapred.map.tasks个数，set mapred.reduce.tasks个数

二、当遇到一个大表和一个小表进行join操作时

解决方法：小表在join左侧，大表在右侧，或使用mapjoin 将小表加载到内存中。然后再对比较大的表进行map操作。

join就发生在map操作的时候，这里的join并不会涉及reduce操作。map端join的优势就是在于没有shuffl