如果需要在spark中配置好historyserver,则需要再修改两处设置。
1.编辑spark-env.sh文件,添加如下所示:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=20 -Dspark.history.fs.logDirectory=hdfs://192.168.48.132:9000/log"
2.编辑spark-defalut.conf文件,添加如下语句:
spark.eventLog.enabled true
spark.eventLog.dir hdfs://192.168.48.132:9000/log
spark.history.ui.port 18080
spark.history.fs.logDirectory hdfs://192.168.48.132:9000/log
spark.history.retainedApplications 20
spark.yarn.historyServer.address 192.168.48.132:18080
注:首先要手工建立日志记录文件夹,服务器不会自动建立,建立命令如下。
hdfs dfs -mkdir hdfs://192.168.48.132:9000/log
然后再在spark目录下启动命令:
./sbin/start-history-server.sh
如果通过jps能够看到HistoryServer,则说明已经启动了。
你可以通过http://ip地址:18080查看spark程序的运行。
由于本人把master和worker都放在同一台虚拟机上,内核是2,所以local下运行的速度反而比yarn要快很多,速度差3倍多