昨天参加面试,提问到如何根据集群的资源,对spark任务进行资源分配:
spark的分配资源主要就是:
executor 的个数
cpu per executor(executor-cores):每个executor的cpu core数量
memory per executor(executor-memory):配置每个executor的内存大小
driver memory:配置driver的内存(影响不大) 等的调节
配置资源:
在我们在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:
/usr/local/spark/bin/spark-submit \
--class cn.spark.test