hive hive.optimize.ppd=false导致map数量很大

最新推荐文章于 2024-06-11 18:48:27 发布

空中的鱼1987

最新推荐文章于 2024-06-11 18:48:27 发布

阅读量2.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： hive

本文链接：https://blog.youkuaiyun.com/lookqlp/article/details/52096282

hive 专栏收录该内容

46 篇文章

订阅专栏

在Hive 0.9.0版本中，设置hive.optimize.ppd=false会导致WHERE子句不被识别，并且会显著增加Map任务的数量。对比未设置此参数的情况，Map任务从90个激增到4363个，而Reducer任务则保持在999个。因此，在新版本的Hive中，建议使用默认的hive.optimize.ppd=true以确保查询优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hive官方https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView
说
Prior to Hive 0.6.0, lateral view did not support the predicate push-down optimization. In Hive 0.5.0 and earlier, if you used a WHERE clause your query may not have compiled. A workaround was to add set hive.optimize.ppd=false; before your query. The fix was made in Hive 0.6.0; see https://issues.apache.org/jira/browse/HIVE-1056: Predicate push down does not work with UDTF's.
在0.5.0版本前使用hive.optimize.ppd=false是能解决where条件不识别的。但我在使用0.9.0版本时使用了该参数，导致where不识别。
不使用参数日志：


Starting Job = job_201312261829_7430, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201312261829_7430
Kill Command = /home/hadoop/hadoop-1.0.3/libexec/../bin/hadoop job  -Dmapred.job.tracker=master:8021 -kill job_201312261829_7430
Hadoop job information for Stage-1: number of mappers: 90; number of reducers: 287

使用该参数日志：


Starting Job = job_201312261829_7433, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201312261829_7433
Kill Command = /home/hadoop/hadoop-1.0.3/libexec/../bin/hadoop job  -Dmapred.job.tracker=master:8021 -kill job_201312261829_7433
Hadoop job information for Stage-1: number of mappers: 4363; number of reducers: 999

所以在新版本的hive中使用hive.optimize.ppd=true；默认值即可