在Spark on Yarn的部署模式中,每次提交application,都会往HDFS中存放一个spark的二进制包,这一方面影响性能,另一方面占用HDFS的存储空间,
可以在spark-default.conf文件中添加如下配置,将spark的二进制包告诉Spark,已经上传
spark.yarn.jar hdfs://hadoop.master:8020/spark_lib_jars/spark-assembly-1.2.0-hadoop2.4.0
在运行spark程序前,需要将spark的jar文件上传至HDFS中
这个设置解决了在http://bit1129.iteye.com/blog/2174677中测试yarn client和yarn cluster两种方式提交作业时,spaspark jar提交了两次
参考:http://www.cnblogs.com/luogankun/p/4191796.html
Spark on YARN 优化部署
本文介绍如何通过配置spark.yarn.jar参数来优化Spark on YARN的应用部署过程,避免重复上传Spark二进制包导致的性能损耗及HDFS存储空间浪费。
1301

被折叠的 条评论
为什么被折叠?



