SparkSQL自定义Hint优化器解决热点数据导致JOIN数据倾斜问题
场景
有时我们通过sparkSQL来分析数据,当使用Join操作时,最让人头疼的莫过于数据倾斜了,如果你是大表关联小表的情况,
那情况还不是很糟糕,可以使用MAPJOIN来破解一下,spark使用spark.sql.autoBroadcastJoinThreshold参数来自动
开启MAPJOIN; BUT,如果两张表数据量都很大的话,MAPJOIN就无能为力了。
使用自定义hint
处理Join...
原创
2019-01-05 13:33:35 ·
1359 阅读 ·
0 评论