一、上篇文件介绍到Spark on Zeppelin 但是运行的是Zeppelin自带的spark,不能使用yarn模式,会导致很多问题的,今天介绍一下Spark On Zeppelin使用yarn模式配置以及运行代码。
二、相关配置
spark配置拷贝hive-site.xml到spark conf目录下
配置spark-env.sh
配置spark-defaults.conf 为了spark on yarn找到相应的spark jar包,并将spark目录下的jar包上传到自建的hdfs目录上供代码运行时进行读取所需jar包
配置zeppelin-env.sh
替换zeppelin安装目录下的jar包
jackson-annotations-2.9.9.jar
jackson-core-2.8.10.jar
jackson-databind-2.9.10.1.jar
更换成spark安装目录下的jar包
jackson-annotations-2.6.7.jar
jackson-core-2.6.7.jar
jackson-databind-2.6.7.jar
如果上述jar包不更换会出现以下的报错
通过页面编辑相关执行器
创建NoteBook进行编写读取hdfs上数据和读取hive库数据
yarn界面查看Zeppelin所提交的运行
综上所述spark在zeppelin上不使用自带spark利用外部spark,采用on yarn模式运行代码已经完成了。
思考:为什么只能采用 yarn-client模式呢?而不能采用yarn-cluster模式呢?
时间仓促如有错误恳请大家原谅,并指出错误