spark on yarn图形化任务监控利器:History-server帮你理解spark的任务执行过程

本文介绍了如何利用History-server这一图形化工具,深入理解Spark在YARN上的任务执行过程。通过对比不同环境的任务配置,特别是分析spark-env.sh和spark-defaults.conf的作用,揭示了spark-defaults.conf配置如何影响YARN资源管理器的任务调度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在spark on yarn任务进行时,大家都指导用4040端口监控(默认是,设置其他或者多个任务同时会递增等例外);
辣么,任务结束了,还要看图形化界面,那就要开history-server了。CDH安装spark on yarn的时候,就自动安装了history的实例。
现在不用CDH自带的spark(版本太久了),自己安装spark新版,所以还得具体配置。
搜了一下帖子,2个步骤:
spark 查看 job history 日志
http://blog.youkuaiyun.com/stark_summer/article/details/46459701

1、spark-defaults.conf 增加如下内容:
#History
spark.eventLog.dir=hdfs://mycluster/user/spark/applicationHistory
spark.eventLog.enabled=true
spark.yarn.historyServer.address=http://snn.hadoop:18018
#####################
2、spark-env.sh 增加如下内容
##History-server
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18018 -Dspark.history.fs.logDirectory=hdfs://mycluster/user/spark/applicationHistory"
###################
3、strt-history-server.sh 启动即可,查看端口监听,网页浏览,没有问题。

[hadoop@snn sbin]$ netstat -tnlp |grep 18018
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值