- 博客(2)
- 资源 (9)
- 收藏
- 关注

原创 SparkSQL自定义Hint优化器解决热点数据导致JOIN数据倾斜问题
场景有时我们通过sparkSQL来分析数据,当使用Join操作时,最让人头疼的莫过于数据倾斜了,如果你是大表关联小表的情况,那情况还不是很糟糕,可以使用MAPJOIN来破解一下,spark使用spark.sql.autoBroadcastJoinThreshold参数来自动开启MAPJOIN; BUT,如果两张表数据量都很大的话,MAPJOIN就无能为力了。使用自定义hint处理Join...
2019-01-05 13:33:35
1358
原创 mac 下virtual box 安装多台centOs并配置网络集群
由于Mac下虚拟机安装centOs集群的文章比较少,特别是对刚转向Mac开发的人来坑比较多。这里将介绍多台cent OS集群间的网络的配置,使其内部能互相通信,并能访问外网,这里是用的虚拟机是virtualbox,其他的虚拟机配置应该有所异同。一.virtual box的安装就不在叙述了,这里直接从虚拟机的创建开始讲,创建过程如下图所示:1.新建一个虚拟机,取个名称,我这里装的是centO...
2016-07-05 21:09:43
4746
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人