2.4 Standalone模式
在Standalon模式中,Spark集群由Master节点和Worker节点构成,使用内置的Standalon框架进行资源管理。Spark程序通过与Master节点交互,申请所需资源。Worker节点负责具体的Executor的启动运行。
Standadlon模式的程序执行流程如下图所示:
图2-5 Standadlon模式的程序执行流程图
- Spark集群启动,Worker节点向Master节点汇报各节点资源情况;
- 由客户端(Client)提交执行程序的任务(Application),并在本节点启动Driver进程进行任务调度;
- 由Driver进程向Master申请运行Application所需要的资源,Master返回一批符合资源要求的Worker节点,由Worker启动本节点上的Executor进程,Driver分发任务到Executor进程进行处理;
- Worker节点将执行完毕后的结果数据,返回给Driver,至此任务运行结束。
Standalone模式的弊端在于客户端每提交一个执行程序任务,都会启动一个Driver进程。当在一个节点上提交大量任务时,会造成当前节点网卡流量激增,影响任务的执行,及其它程序的运行。因此Standalone模式一般也用于测试环境。
2.4.1 部署Standalone模式的Spark
通过以下步骤,配置Worker节点
重命名slaves.template文件为slaves,使用以下命令:
mv /usr/local/spark/conf/slaves.template /usr/local/spark/conf/slaves
编辑slaves文件,使用以下命令:
vim /usr/local/spark/conf/slaves
替换原有的localhost为以下内容:
# 设置 worker 节点
master
slave1
slave2
通过以下步骤,配置Spark集群运行参数:
重命名spark-env.sh.template配置文件为spark-env.sh,使用以下命令:
mv /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
编辑spark-env.sh文件,在最后追加以下内容:
# 设置 JDK 目录
export JAVA_HOME=/usr/local/lib/jdk1.8.0_212
# 设置 web 监控页面端口号
export SPARK_MASTER_WEB_PORT=7077
# 设置 zookeeper 集群地址,实现高可用
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zookeeper.dir=/usr/local/spark"
# 设置 YARN 的配置文件目录
export YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop
# 设置 HDFS 的配置文件目录
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
通过以下步骤,部署Spark到slave1和slave2:
创建spark目录,在slave1和slave2使用以下命令:
sudo mkdir /usr/local/spark
修改spark目录的所有者为hadoop用户,在slave1和slave2使用以下命令:
sudo chown hadoop /usr/local/spark/
发送spark给slave1和slave2,在master使用以下命令:
scp -r /usr/local/spark/* hadoop@slave1:/usr/local/spark/
scp -r /usr/local/spark/* hadoop@slave2:/usr/local/spark/
发送环境变量给slave1和slave2,在master使用以下命令:
scp /home/hadoop/.bashrc hadoop@slave1:/home/hadoop/
scp /home/hadoop/.bashrc hadoop@slave2:/home/hadoop/
刷新环境变量,在slave1和slave2使用以下命令:
source /home/hadoop/.bashrc
2.4.2 启动Standalone模式的Spark
以Standalone模式运行程序需要先启动Spark集群,常用的脚本命令如下表所示:
表2-3 常用的Spark命令脚本
| 脚本 | 描述 |
| start-master.sh | 在执行该脚本的机器上启动Master进程 |
| start-slaves.sh | 在slaves文件中指定的每个节点上启动Worker进程 |
| start-all.sh | 执行start-master.sh和start-slaves.sh两个脚本 |
| stop-master.sh | 关闭由start-master.sh脚本启动的Master进程 |
| stop-slaves.sh | 关闭由start-slaves.sh脚本启动的Worker进程 |
| stop-all.sh | 执行stop -master.sh和stop -slaves.sh两个脚本 |
需要注意的是,这些脚本都需要在你打算作为Master节点的服务器上执行。
Spark的Master节点也面临单点故障问题,需要通过zookeeper集群实现高可用。这个配置我们已经在spark-env.sh文件中配置好了。
综上所述,启动Spark集群需要以下步骤:
- 启动所有节点的Zookeeper,在master、slave1和slave2使用以下命令:
zkServer.sh start
- 在master启动Spark集群,在master使用以下命令:
start-all.sh
- 在slave1启动备用master,在slave1使用以下命令:
start-master.sh
- 在master、slave1和slave2使用以下命令查看进程,效果如下图所示:
jps
图2-6 Standalon模式的Spark的进程
- 在浏览器输入以下网址访问Spark的web监控页面,效果如下图所示:
图2-7 Spark的web监控页面
如果大家按步骤安装完成却不能运行Spark,那么需要学会通过查看日志信息来解决问题。Spark在启动期间记录了详尽的日志信息,保存在安装目录下的logs目录内。
当我们启动Spark集群的时候,它也会给我们展示出如下提示信息:
starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-master.out
slave1: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave1.out
slave2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave2.out
master: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-master.out
这些提示信息清楚的告诉我们各个进程对应的日志文件名字。
由于日志数据是不断追加在日志文件中的,我们查看的时候可以使用tail命令,查看最后n行内容,寻找错误原因。一般错误信息通常是写着Error、Java Exception的地方。找到错误信息后,只要在网上搜索一下,即可找到大部分问题的解决方案。
2.4.3 以Standalone模式运行程序
以SparkPi程序为例,在Standalone模式下运行的命令如下:
spark-submit --master spark://master:7077,slave1:7077 /usr/local/spark/examples/src/main/python/pi.py 10
因为我们配置了高可用,所以在--master选项后需要填写所有Master进程的地址。
执行结果的查看和Local模式一致,这里就不在赘述。
在命令执行完成后,我们打开Spark的web监控页面。在网页底部可以寻找到已经执行完成的SparkPi程序,点击还可以查看执行过程中的输出的日志信息。监控页面如下图所示:
图2-8 Spark的web监控页面
2.4.4 关闭Standalone模式的Spark
- 关闭Spark集群,在master使用以下命令:
stop-all.sh
- 关闭slave1上的备用master,在slave1使用以下命令:
stop-master.sh
- 关闭zookeeper,在master、slave1和slave2使用以下命令:
zkServer.sh stop
本文详细介绍了Spark的Standalone模式,包括其工作流程、集群部署步骤、启动与停止操作,以及如何以Standalone模式运行程序。在Standalone模式下,Spark集群由Master和Worker节点构成,资源管理内置在框架中。程序执行涉及客户端提交任务、Driver申请资源、Executor执行任务的过程。此外,文章还涵盖了如何配置高可用,以及如何通过日志排查问题。最后,讨论了关闭Spark集群的方法。
365

被折叠的 条评论
为什么被折叠?



