spark提交任务的基础配置解释

最新推荐文章于 2024-11-27 14:06:27 发布

Deltao_Taic

最新推荐文章于 2024-11-27 14:06:27 发布

阅读量1.6k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/Deltao_Taic/article/details/122824583

版权

本文档详细解释了一个Spark任务在YARN上提交时的基础配置，包括队列选择、executor数量与资源配置、日志配置、序列化方式、数据本地化策略、失败重试、动态资源分配、推测执行、shuffle管理等多个关键参数的设置，旨在优化Spark作业的性能和稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#!/bin/bash
#队列名根据yarn的队列提交
realtime_queue=root
#提交的任务名
my_job_name="OrderQZ"
spark-shell --master yarn --deploy-mode client \
--queue $realtime_queue \
#总的executors数根据数据量与自己的集群资源来分配
--num-executors 35 \
#每个executor的核数
--executor-cores 5 \
#每个executor的内存
--executor-memory 19G \
#diver 端jvm日志配置
--conf spark.driver.extraJavaOptions=-Dlog4j.configuration=log4j-yarn.properties \
--conf spark.executor.extraJavaOptions=-Dlog4j.configuration=log4j-yarn.properties \
#序列化
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \
#数据本地化;一般会默认3s,重试5次的去分配，一旦超时失败，将会选择一个比上一个本地级别差的级别再一次分配，如果发生了数据传输，那么task首先通过blockmanager获取数据，如果本地没有数据，则通过getRemote方法从数据所在节点的blockmanager获取数据并返回至task所在节点
--conf spark.locality.wait=5 \
#失败重试次数
--conf spark.task.maxFailures=8 \
# 是否开启在webui杀死进