- 博客(5)
- 收藏
- 关注
原创 数据倾斜问题
hive底层使用MR, 也有参数会自动将common join(reduce) 转为 map join 默认为false, 需手动开启, 默认大小是25M以内会cache;否则给倾斜key对用的数据加盐操作,打上n以内的随机数,将需要join的另一个RDD的每条数据膨胀成n条数据,打上0~n的前缀,如果拆分出倾斜key的两个RDD中有一个是小表,则采用map端join, 广播出去,剩下的两个非倾斜key的RDD做join,不会有数据倾斜,需要join的另一个RDD中的对应key也拆分出来,...
2022-08-11 09:48:34
769
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人