记录一次spark2.x数据倾斜(隐藏的笛卡尔积)排查处理过程
目录一、问题描述二、尝试调整参数三、查看spark具体sql流程图一、问题描述有一个dwd层中间表的入表任务,有几天的日期永远无法执行成功,平时的任务时间大概在2分钟。之前也遇到过一次这样的情况,是通过排查脏数据得到了解决(长字符串id中有不规则脏字符),这次实在没有头绪。二、尝试调整参数因为查看yarn任务的页面,发现总是报错在拒绝连接,看到有个别任务总是执行半天卡住,并且shuffle的records数量也明显高于其他exceutor,并且不仅spill到内存,甚至到了磁
原创
2022-04-17 15:56:43 ·
1941 阅读 ·
0 评论