hive的数据倾斜问题

本文深入探讨了Hive数据倾斜问题,包括数据倾斜的概念、产生现象及其原因。针对groupby、map和reduce优化、多表关联及包含count(distinct)等情况下的数据倾斜,提供了详细的解决方案,如设置hive.map.aggr、hive.groupby.skewindata、mapjoin等。

hive的数据倾斜问题

1.什么是数据倾斜

数据倾斜是我们在进行分布式计算的时候,某些节点的计算能力较强或需要计算的数据量很少,早早的执行完了;而某些节点的计算能力较差或此节点需要计算的数据较多,导致出现其他节点的reduce阶段任务执行完成,但是这种节点的数据处理任务还没有执行完成

2.数据倾斜产生的现象

如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。

3.产生数据倾斜的原因及解决方案

(1)group by
**原因:**当我们使用hive对一些数据类型进行统计的时候,会遇到某些类型的数据过多,但某些类型的数据特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其他组的计算已经完成而这里的计算还没完成,其他节点就要一直等待这个节点任务执行完成,所以会看到一直map 100% reduce 99%的情况。
解决办法: set hive.map.aggr=true
       set hive.groupby.skewindata=true
原理:hive.map.aggr=true 这个配置项代表是否在map端进行聚合
 hive.groupby.skewindata=true 当选项设定为 true,生成的查询计划会有两个MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中),最后完成最终的聚合操作。
(2)map和reduce优化
1)当出现小文件过多,需要合并小文件。可以通过set hive.merge.mapfiles=true来解决。
2)单个文件大小稍稍大于配置的block块的大写,此时需要适当增加map的个数。解决方法:set mapred.map.tasks个数
3)文件大小适中,但map端计算量非常大,如select id,count(),sum(case when…),sum(case when…)…需要增加map个数。解决方法:set mapred.map.tasks个数,set mapred.reduce.tasks个数
(3)多表关联
1)大表和小表关联:使用map join将小表加载到内存中,在map端完成reduce,直接拿另一表中的数据与内存中的数据进行匹配。
2)大表和大表关联:当join的字段有数据为空时,如表一的id要和表二的id进行关联
   解决方法1:id为空的不参与关联
   select * from log a
      join users b
      on a.id is not null and a.id = b.id
       union all
       select * from log a
      where a.id is null;
解决方法2:给空值分配随机的key值
      如:select * from log a
        left outer join users b
        on
        case when a.user_id is null
        then concat(‘hive’,rand() )
        else a.user_id end = b.user_id;

(4)当hive中包含count(distinct)时
如果数据量非常大,执行如select a,count(distinct b) from t group by a;类型的SQL时,会出现数据倾斜的问题。
解决方法:使用sum…group by代替。如select a,sum(1) from (select a, b from t group by a,b) group by a;
参考文献:
【1】https://blog.youkuaiyun.com/liminghui4321/article/details/102846322

### 数据倾斜的解决方案 数据倾斜是大数据处理过程中常见的问题之一,特别是在Hive中执行查询时,可能会遇到任务进度长时间卡在99%的情况。造成这种情况的主要原因是某些节点需要处理的数据量远远大于其他节点,导致整体任务执行效率下降。以下是一些常见的解决数据倾斜的方法。 #### 1. **调整Reduce数量** 通过合理设置Reduce任务的数量,可以有效缓解数据倾斜问题。可以通过以下参数调整: - `hive.exec.reducers.bytes.per.reducer`:控制每个Reduce处理的数据量,默认是1GB。 - `hive.exec.reducers.max`:设置最大Reduce数量。 例如: ```sql SET hive.exec.reducers.bytes.per.reducer=500000000; -- 每个Reduce处理500MB数据 SET hive.exec.reducers.max=100; -- 最大Reduce数量为100 ``` #### 2. **使用MapJoin优化小表关联** 当大表与小表进行Join操作时,可以使用MapJoin将小表加载到内存中,避免Shuffle阶段的数据倾斜Hive提供了自动MapJoin优化,也可以手动指定: ```sql SET hive.auto.convert.join = true; -- 自动转换为MapJoin ``` #### 3. **空值处理** 对于空值(NULL)导致的数据倾斜,可以将NULL值替换为随机值,从而将数据分散到不同的Reduce任务中处理。例如: ```sql SELECT COALESCE(a.key, CONCAT('random_', RAND())) AS new_key, a.value FROM table_a a LEFT JOIN table_b b ON a.key = b.key; ``` #### 4. **数据预处理** 在进行Join或Group By操作之前,可以对数据进行预处理,例如对倾斜的Key进行拆分或聚合,减少单个Key的数据量。 ```sql -- 假设某个Key值 'X' 是导致倾斜的原因 SELECT CASE WHEN key = 'X' THEN CONCAT('X_', CAST(RAND() * 10 AS INT)) ELSE key END AS new_key, value FROM table; ``` #### 5. **使用Skewed Join** Hive支持Skewed Join特性,可以将倾斜的Key单独处理,避免单个Reduce任务过重。可以通过以下方式启用: ```sql SET hive.optimize.skewedjoin = true; SET hive.skewedjoin.key = 100000; -- 设置倾斜Key的阈值 ``` #### 6. **Group By优化** 在Group By操作中,可以通过设置以下参数来优化数据分布: - `hive.map.aggr = true`:在Map阶段进行部分聚合。 - `hive.groupby.skewindata = true`:启用Group By的数据倾斜优化,Hive会自动将数据打散到多个Reduce任务中。 ```sql SET hive.map.aggr = true; SET hive.groupby.skewindata = true; ``` #### 7. **数据重分区** 如果数据分布本身不均匀,可以在ETL过程中进行数据重分区,确保数据在写入时就已经均匀分布。可以使用`DISTRIBUTE BY`语句来控制数据分布: ```sql INSERT OVERWRITE TABLE partitioned_table SELECT * FROM source_table DISTRIBUTE BY key; ``` ### 总结 数据倾斜的解决方法多种多样,具体选择哪种方式取决于数据的特点和业务场景。常见的策略包括调整Reduce数量、使用MapJoin、处理空值、数据预处理、使用Skewed Join、优化Group By操作以及数据重分区等。在实际应用中,可以结合多种方法来达到最佳效果。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值