在spark上跑应用程序时,可以在4040端口查看运行情况,但是一旦程序结束,这个端口便关闭了,这时想要查看历史数据,就要启用history server。具体步骤如下:
首先修改spark/conf下的两个配置文件
第一个:spark-env.sh
vim spark-env.sh
添加如下内容
含义:
- history server的web端口为18080
- 保留10个应用程序的历史记录
- 历史记录日志的地址
- 也可以选择其他地址,比如放到hdfs上
保存后source一下
source spark-env.sh
第二个:spark-defaults.conf
没有这个文件的话用spark-defaults.conf.template文件复制一个就好
添加如下内容
含义:
- 启动事件日志
- 事件日志地址
其他参数可以去官网上看
然后来到spark/sbin文件夹下,启动spark和history server
start-all.sh
start-history-servr.sh
jps一下,看到两个管理器,三个节点,以及历史服务器就说明启动成功了
(运行对应的stop-xx.sh就可以关闭spark和history server)
在localhost:18080即可打开历史服务器的web UI
来到spark文件夹下,运行一下spark自带的样例
bin/run-example SparkPi
如图所示运行成功!
然后就可以在web UI中看到该应用程序的历史记录啦~