Standalone

(一)Standalone模式介绍
Spark 的 Standalone 模式是一种独立的集群部署模式,自带完整服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。

一句话理解是:它自带yarn功能。

(二)Standalone模式准备工作
要布置standalone模式,需要准备多台机器(linux,ip设置,能ping 百度),免密互联。

这里我们就使用上一个阶段学习hadoop时配置的3台机器。

配置步骤
整个配置步骤一共分成8步。

1.上传spark安装包到某一台机器(例如:hadoop100)。 spark.3.1.2-bin-hadoop3.2.tgz。

2.解压。 把第一步上传的安装包解压到/opt/module下(也可以自己决定解压到哪里)。对应的命令是:tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/

3.重命名。进入/opt/module/把解压的内容重命名一下,mv spark-3.1.1-bin-hadoop3.2/ spark-standalone

4.修改workers.template文件。这个文件在spark的安装目录下的conf目录下,先把名字改为workers,然后把内容设置为三台机器的主机名,具体如下。

hadoop100

hadoop101

hadoop102

5.修改spark-env.sh.template文件。先把名字改成spark-env.sh,然后修改内容,添加JAVA_HOME环境变量和集群对应的master节点以及通信端口,具体如下。

export JAVA_HOME=/opt/module/jdk1.8.0_212
SPARK_MASTER_HOST=hadoop100

SPARK_MASTER_PORT=7077

6.同步设置完毕的Spark目录到其他节点。使用我们之前封装的命令:

xsync /opt/module/spark-standalone/

7.启动SPARK集群。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。注意,这里不要省略./,它表示的是当前目录下的start-all命令,如果省略了./,它就会先去环境变量PATH中指定的目录来找这个命令。

8.查看启动效果。打开浏览器,输入hadoop100:8080。看到效果如下:

9.验收效果。通过jps命令去每台机器上查看运行的进程。请观察是否在hadoop100上看到了master,在hadoop101,hadoop102上看到了salver。

(四)提交Spark作业
把spark程序提交给集群执行。切换到目录 /opt/module/spark-standalone/bin下,可以看到有一个spark-submit可执行文件,我们通过它来提交任务。bin/spark-submit

它支持的参数如下:

--class Spark 程序中包含主函数的类

--master Spark 程序运行的模式 (环境)

--deploy - mode master 设为 Yarn 模式之后,使用的模式 client 和 cluster

--driver - cores master 设为 Yarn 模式之后,设置 driver 端的 cores 个数

--driver - memory master 设为 Yarn 模式之后,用于设置 driver 进程的内存(单位 G 或单位 M)

--num - executors master 设为 Yarn 模式之后,用于设置 Spark 作业总共要用多少个 Executor 进程来执行

--executor - memory 指定每个 executor 可用内存(单位 G 或单位 M)

--total - executor - cores 2 指定所有 executor 使用的 cpu 核数为 2 个

--executor - cores 指定每个 executor 使用的 cpu 核数

application-jar 打好包的应用 jar,包含依赖。这个 URL 在集群中全局可见。比如 hdfs 的共享存储系统,如果是 file://path,那么所有的节点的 path 都包含同样的 jar

application-arguments: 传递给main()方法的参数

运行代码

./spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop100:7077 /opt/module/spark-standalone/examples/jars/spark-examples_2.12-3.1.1.jar 50
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.youkuaiyun.com/2301_82251033/article/details/147383781

StandaloneSpark自带的一种部署模式,用于管理和运行Apache Spark应用程序。它是一种分布式计算框架,适用于小规模的集群或者单机环境,并且不需要依赖其他资源管理器(如YARN或Mesos)。在Standalone模式下,可以真实地在多个机器之间搭建Spark集群的环境,用于实际的大数据处理。需要注意的是,在使用Standalone模式时,我们需要将'主节点地址'替换为实际使用的Standalone主节点的地址,并确保环境中已经正确安装并配置了Spark。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Standalone是什么?Standalone集群的三类进程](https://blog.youkuaiyun.com/cz_00001/article/details/131070781)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Standalone是什么?详解Standalone集群的三类进程](https://blog.youkuaiyun.com/zy1992As/article/details/131087571)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值