
Spark On Hive调优
文章平均质量分 92
关于spark on hive的参数配置以及性能调优专题
菜鸟Octopus
某生鲜领域供应链算法
展开
-
Spark SQL优化:NOT IN子查询优化解决
有如下的数据查询场景。原创 2023-08-16 17:11:33 · 1711 阅读 · 0 评论 -
Hive on Spark调优(大数据技术3)
在将NodeManager的总内存平均分配给每个Executor,最后再将单个Executor的内存按照大约10:1的比例分配到spark.executor.memory和spark.executor.memoryOverhead。动态分配可根据一个Spark应用的工作负载,动态的调整其所占用的资源(Executor个数)。此处的Executor个数是指分配给一个Spark应用的Executor个数,Executor个数对于Spark应用的执行速度有很大的影响,所以Executor个数的确定十分重要。原创 2023-05-17 07:30:00 · 1256 阅读 · 0 评论 -
Hive on Spark调优(大数据技术6)
若参与join的表均为分桶表,且关联字段为分桶字段,且分桶字段是有序的,且大表的分桶数量是小表分桶数量的整数倍。此时,就可以以分桶为单位,为每个Map分配任务了,Map端就无需再缓存小表的全表数据了,而只需缓存其所需的分桶。Map端负责读取参与join的表的数据,并按照关联字段进行分区,将其发送到Reduce端,Reduce端完成最终的关联操作。若参与join的表中,有n-1张表足够小,Map端就会缓存小表全部数据,然后扫描另外一张大表,在Map端完成关联操作。162900000000(约160g)原创 2023-05-19 23:30:00 · 1287 阅读 · 0 评论