集群: nn Master(Alive)
dn1 Master(Standby)
dn2 Worker
dn3 Worker
1 tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
2 vi spark-env.sh 配置standalone模式下 nn下:
export JAVA_HOME=/home/hadoop/opt/jdk8
export SPARK_MASTER_IP=nn
export SPARK_MASTER_PORT=7077
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=dn1:2181,dn2:2181,dn3:2181 -Dspark.deploy.zookeeper.dir=/spark"
export SPARK_WORKER_CORES=1 #指定计算资源,1个核
export SPARK_WORKER_INSTANCES=1 #每台机器上开启的worker节点的数目
export SPARK_WORKER_MEMORY=1024m #每个worker节点能够最大分配给exectors的内存大小
export SPARK_EXECUTOR_MEMORY=1024m

3 dn1下:
export JAVA_HOME=/home/hadoop/opt/jdk8
export SPARK_MASTER_IP=dn1
export SPARK_MASTER_PORT=7077
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=dn1:2181,dn2:2181,dn3:2181 -Dspark.deploy.zookeeper.dir=/spark"
export SPARK_WORKER_CORES=1 #指定计算资源,1个核
export SPARK_WORKER_INSTANCES=1 #每台机器上开启的worker节点的数目
export SPARK_WORKER_MEMORY=1024m #每个worker节点能够最大分配给exectors的内存大小
export SPARK_EXECUTOR_MEMORY=1024m
4 dn2和dn3如dn1配置
5 vi slaves

6 启动spark命令:sbin/start-all.sh,启动主master
启动备用master :sbin/start-master.sh
7 .访问spark:
http://192.168.64.132:8080/

8 指定master地址,将任务提交到集群,开始时sparksubmit(客户端)要连接Master,并申请计算资源(内存和核数)
bin/spark-shell --master spark://nn:7077,dn1:7077
9 sc是spark core(RDD)的执行入口:
sc.textFile(“hdfs://nn:9000/wc”).flatMap(.split(" ")).map((, 1)).reduceByKey(+).sortBy(_._2, false).collect
本文介绍了如何在standalone模式下搭建Spark高可用集群。包括在nn节点配置standalone模式,将dn1设置为备用Master,dn2和dn3作为Worker节点。通过编辑spark-env.sh和slaves文件进行配置,并使用sbin/start-all.sh和start-master.sh启动Master节点。完成部署后,可以通过http://192.168.64.132:8080/访问Spark UI。提交任务到集群时,使用spark-submit指定Master地址,例如spark://nn:7077,dn1:7077,然后通过sc进行RDD操作。"
118291044,10999075,Visual Studio删除操作:多表关联删除策略,"['数据库操作', '编程', 'C#', 'Visual Studio', 'ORM']
1208

被折叠的 条评论
为什么被折叠?



