偏好配置化spark参数设置

本文主要探讨了如何针对不同需求配置Spark参数,包括任务资源配置、executor内存分配、shuffle管理及超时设置,以优化性能和避免错误。通过合理设置driver-memory、num-executors、executor-memory等参数,以及调整shuffle相关参数,可以有效地提升Spark作业的效率和稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景:偏好种类过多,每次创建、完善画像hql工作量巨大。为了解决此问题,将hql配置化生成,并且使用spark运行。

由于不同的偏好量不同,脚本动态分配资源,直接上代码!

脚本:sh /....../prefer_res_normal.sh 参数1 参数2 21840 (21840约等于偏好M数,必须为840的倍数)

#!/bin/bash
partitions=`expr ${3} / 140`
numexe=`expr ${3} / 840`

--master yarn \

--driver-memory 4G \
--driver-cores 1 \

--num-executors ${numexe} \
--executor-memory 12G \
--executor-cores 2 \

--conf spark.default.parallelism=${partitions} \

--conf spark.sql.shuffle.partitions=${partitions} \

--conf spark.storage.memoryFraction=0.5 \
--conf spark.shuffle.memoryFraction=0.3 \

--conf spark.shuffle.io.maxRetries=30 \
--conf spark.shuffle.io.retryWait=30s \

--conf spark.network.timeout=300 \

--conf spark.reducer.maxSizeInFlight=96m \

--conf spark.shuffle.sort.bypassMergeThreshold=1000 \

--conf spark.executor.logs.rolling.maxRetainedFiles=5 \

改了三个hive参数
hive.me
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值