- 博客(3)
- 收藏
- 关注
原创 Spark join执行机制
确定Build Table以及Probe Table:这个概念比较重要,Build Table使用join key构建Hash Table,而Probe Table使用join key进行探测,探测成功就可以join在一起。通常情况下,小表会作为Build Table,大表作为Probe Table。此事例中item为Build Table,order为Probe Table;
2024-03-20 10:13:07
2241
1
原创 Spark数据倾斜定位及解决方案
因为自己编写的代码的bug,以及偶然出现的数据异常,也可能会导致内存溢出。此外,倒数第一列显示了每个task处理的数据量,明显可以看到,运行时间特别短的task只需要处理几百KB的数据即可,而运行时间特别长的task需要处理几千KB的数据,处理的数据量差了10倍。:该方案通常无法彻底解决数据倾斜,因为如果出现一些极端情况,比如某个key对应的数据量有100万,那么无论你的task数量增加到多少,这个对应着100万数据的key肯定还是会分配到一个task中去处理,因此注定还是会发生数据倾斜的。
2024-03-19 16:17:31
2404
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人