Spark由于端口号无限增长报错和任务跑完就关闭的解决方案

Spark UI与端口配置

最新推荐文章于 2023-09-12 06:44:09 发布

原创最新推荐文章于 2023-09-12 06:44:09 发布 · 2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Spark

Spark 专栏收录该内容

30 篇文章

订阅专栏

本文介绍了Spark UI的默认端口配置及如何调整spark.port.maxRetries参数来避免端口冲突，确保多个Spark任务可以同时运行，并介绍了如何通过配置使Spark UI在任务结束后仍可访问。

Spark任务都会绑定一个端口来显示WebUI，默认端口为4040，如果被占用则依次递增+1端口重试，重试次数由参数spark.port.maxRetries=16控制，默认重试16次后就放弃执行

当有17个app进来会报错，最多能运行16个作业

我们工作中，一定要把这个参数调大，一般都好几千

spark.eventLog.enabled=true 即使spark任务运行结束，也可以访问sparkUI，来保证任务跑完了也可以实时监控

./sbin/start-history-server.sh

并把日志存到文件系统里面去

spark.port.maxRetries 16 Maximum number of retries when binding to a port before giving up. When a port is given a specific value (non 0), each subsequent retry will increment the port used in the previous attempt by 1 before retrying. This essentially allows it to try a range of ports from the start port specified to port + maxRetries.

spark.ui的默认端口配置在spark-default.conf中，或者在spark-shell的时候指定./spark-shell --conf PROP=16

初始化参数方式
1. 程序代码中初始化SparkConf时，设置conf.set(“spark.port.maxRetries”,“128”)
2. 使用spark-submit提交任务时，--conf spark.port.maxRetries=128
3. 在全局的spark-defaults.conf中添加spark.port.maxRetries 128 ，对所有的application起作用