
Hadoop
文章平均质量分 56
ImproveJin
大龄失业程序员
展开
-
数据倾斜产生原因及应对之道
产生数据倾斜的根本原因是某个task处理数据过多,执行时间较长,导致整个Job执行时间长,因此解决数据倾斜的根本之道就是避免过多的数据进入同一个task,总结起来主要有以下方式: Group By产生数据倾斜 直接增加task并行度,简单粗暴,但并不一定能正在解决问题。倾斜是由多个key组合输入一个task导致数据过多, 这种方式有效,但如果存在单个hot key数据量大则无效。 预聚合,类似于Map Combine, 相当与把聚合运算提前分散到多个task, 减少最终聚合task的输入数据量 hi原创 2021-12-17 16:09:30 · 1287 阅读 · 0 评论 -
windows下Hadoop报错null\bin\winutils.exe
在windows环境下hadoop或flink时,可能会出现如下异常: 2018-09-30 17:45:59,517 ERROR org.apache.hadoop.util.Shell - Failed to locate the winutils binary in the hadoop binary path java.io...原创 2018-10-08 10:29:04 · 4780 阅读 · 1 评论