在spark on yarn任务进行时,大家都指导用4040端口监控(默认是,设置其他或者多个任务同时会递增等例外);
辣么,任务结束了,还要看图形化界面,那就要开history-server了。CDH安装spark on yarn的时候,就自动安装了history的实例。
现在不用CDH自带的spark(版本太久了),自己安装spark新版,所以还得具体配置。
搜了一下帖子,2个步骤:
spark 查看 job history 日志
http://blog.youkuaiyun.com/stark_summer/article/details/46459701
1、spark-defaults.conf 增加如下内容:
#History
spark.eventLog.dir=hdfs://mycluster/user/spark/applicationHistory
spark.eventLog.enabled=true
spark.yarn.historyServer.address=http://snn.hadoop:18018
#####################
2、spark-env.sh 增加如下内容
##History-server
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18018 -Dspark.history.fs.logDirectory=hdfs://mycluster/user/spark/applicationHistory"
###################
3、strt-history-server.sh 启动即可,查看端口监听,网页浏览,没有问题。
[hadoop@snn sbin]$ netstat -tnlp |grep 18018
(Not all processes could be identified, non-owned process info
will not be shown, you would have to be root
辣么,任务结束了,还要看图形化界面,那就要开history-server了。CDH安装spark on yarn的时候,就自动安装了history的实例。
现在不用CDH自带的spark(版本太久了),自己安装spark新版,所以还得具体配置。
搜了一下帖子,2个步骤:
spark 查看 job history 日志
http://blog.youkuaiyun.com/stark_summer/article/details/46459701
1、spark-defaults.conf 增加如下内容:
#History
spark.eventLog.dir=hdfs://mycluster/user/spark/applicationHistory
spark.eventLog.enabled=true
spark.yarn.historyServer.address=http://snn.hadoop:18018
#####################
2、spark-env.sh 增加如下内容
##History-server
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18018 -Dspark.history.fs.logDirectory=hdfs://mycluster/user/spark/applicationHistory"
###################
3、strt-history-server.sh 启动即可,查看端口监听,网页浏览,没有问题。
[hadoop@snn sbin]$ netstat -tnlp |grep 18018
(Not all processes could be identified, non-owned process info
will not be shown, you would have to be root