
hive优化
文章平均质量分 72
QuinnJob
这个作者很懒,什么都没留下…
展开
-
工作中报错故障集合
OOM常见报错排查之堆外内存溢出 ●报错:ExecutorLostFailure (executor xxx exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 12.4 GB of 12 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead or d原创 2022-03-15 15:49:35 · 1843 阅读 · 0 评论 -
工作中优化集合
●案例一分享:最近优化一个case,类似于:insert overwrite table target_table (dayno=20211220) select a,count(1) from source_table where dayno beetween 20201219 and 20211219 group by a; 这个sql每天都要回溯一年的数据,在时间和费用上耗时都很高,尤其是晚上任务高峰期,等待资源的时间有时候会很长,拉长了任务的执行时间。 ●解决办法:1. 可以先将中间部分数据聚合:i原创 2022-03-15 15:49:17 · 341 阅读 · 0 评论 -
Hive优化
Map和Reduce 启动和初始化map和reduce都会花费资源 map个数,取决于切片数量 1当输入数据量少于参数(128m),只有一个map,不用调整, 若该表字段少,行数多,可以适当调高map数提高效率。 2若map数较多,查看到很多split大小是小于128,有小文件情况,这个时候除了jvm重启,考虑减少map数量参数设置。通过减少map数,减少资源启动优化。 reduce数 reduce,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,原创 2021-03-06 19:38:01 · 476 阅读 · 0 评论