spark on yarn 日志无法正常显示
是因为我们在运行spark任务后,默认是由AM进行历史任务汇聚,拼接的URL是job history的链接,但是spark里面>是drive负责汇聚,需要通过spark history进行收集后才能查看。
下面给出配置方式
1. 修改spark-defaults.conf
添加以下内容
spark.eventLog.enabled true
spark.eventLog.compress true
spark.eventLog.dir hdfs:///user/log/spark
spark.yarn.historyServer.address park-host:18080
- spark.eventLog.dir 配置日志存放地址,可以是file开头的本地或者是hdfs开头的hadoop目录,但是要提前创建对应目录
- spark.yarn.historyServer.address 是要在spark 所在服务器上启动的history服务器的配置
2. 修改sparn-env.sh
添加
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs:///user/log/spark"
3. 启动Spark History Server
/usr/local/spark/sbin/start-history-server.sh