centos7 spark-submit 部署spark on yarn分布式集群

spark-submit / spark on yarn分布式集群

flask项目中用到了pyspark和es数据库
项目api中使用subprocess python自置模块来调用shell执行./spark-submit命令执行pyspark脚本启动spark查询es数据库然后把查询的数据注册成临时表再使用sparksql再筛选数据。

spark on yarn基础配置
http://spark.apache.org/docs/latest/running-on-yarn.html
HADOOP_CONF_DIR 和YARN_CONF_DIR两个变量
然后spark-submit参数加上 --master yarn --deploy-mode cluster
hadoop-conf和yarn-conf:hadoop和yarn的配置文件,下载解压
elasticsearch-spark-13_2.11-5.6.9.jar和spark-2.32-bin-hadoop2.7来搭桥梁。需要在spark-2.3.2-bin-hadoop2.7中的conf文件夹中copy spark-env.sh.template文件并改名spark-env.sh

  1. cd spark-2.3.2-bin-hadoop2.7/conf/
    cp spark-env.sh.template spark-env.sh
    vi spark-env.sh
    export HADOOP_CONF_DIR=/home/python/hadoop-conf
    export YARN_CONF_DIR=/home/python/yarn-conf
    添加完毕然后再启动hadoop参数上加上
    ./bin/spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.submit.waitAppCompletion=True

如果报错

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值