spark standalone mode

最新推荐文章于 2025-05-14 09:48:07 发布

warrior_zhang

最新推荐文章于 2025-05-14 09:48:07 发布

阅读量481

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： linux spark hadoop 技术

本文链接：https://blog.youkuaiyun.com/warrior_zhang/article/details/50503369

spark 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了如何在集群上安装并配置Apache Spark Standalone模式，包括手动启动集群的方法及连接应用程序到集群的具体步骤。此外，还提供了使用spark-shell及spark-submit提交应用程序的示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Installing Spark Standalone to a Cluster
To install Spark Standalone mode, you simply place a compiled version of Spark on each node on the cluster.

to visit the below blog:
http://blog.chinaunix.net/uid-29454152-id-5148300.html
http://blog.chinaunix.net/uid-29454152-id-5148347.html

2. Starting a Cluster Manually

1)at master

command to start spark

sudo ./sbin/start-master.sh

spark://HOST:PORT can be find in webUI address : http://localhost:8080

2)at worker

command to connect master

./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT

3. Connecting an Application to the Cluster

command to start app in spark

sudo ./bin/spark-shell --master spark://IP:PORT --total-executor-cores <numCores>

4.submit jar

mode:down at spark dir

./bin/spark-submit --class path.to.your.class [options] <app jar>

example:at standalone

      ./bin/spark-submit \
      --class my.main.classname \
      --master spark://127.0.0.1:7077
      --executor-memory 2G \
      --total-executor-cores 4 \
        /home/warrior/IdeaProjects/sparkTest/out/artifacts/sparkTest_jar/sparkTest.jar

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

warrior_zhang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark Standalone Mode 在 Win10 下搭建开发调试环境

ice泉的博客

11-17

977

系统环境变量配置Java Env略，确保在cmd终端可以运行javaC:\windows\system32>java -version java version "1.8.0_131" Java(TM) SE Runtime Environment (build 1.8.0_131-b11) Java HotSpot(TM) 64-Bit Server VM (build 25.131-b11,

Spark学习（三）---Spark Standalone Mode说明及参数配置详解

BlueSky

11-20

4576

启动集群–启动standalone模式下master server（启动完毕后可以通过http://master:8080来看你对应的spark-url，其中master对应你机器的hostname） ./sbin/start-master.sh –启动one or more works并且将他们连接到master ./sbin/start-slaves.sh –全部启动 ./sbin/

参与评论您还未登录，请先登录后发表或查看评论

Spark Standalone Mode

JackLi31742的博客

11-11

321

1、启动脚本 ./sbin/start-master.sh 输出一个URL： spark://HOST:PORT 默认WebUI上有： http://localhost:8080 ./sbin/start-slave.sh <master-spark-URL> -h HOST, --host HOST -p PORT, --port PORT Port for s...

Spark Standalone Mode 安装

yang7551735的专栏

01-10

408

Spark Standalone Mode 安装

Spark Standalone Mode配置HA

小萌猿的博客

05-02

2408

配置环境：node1、node2、node3 核心就是在spark-env.sh中添加(三台节点都添加)： export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=192.168.245.151:2181,192.168.245.163:2181,19...

Spark Standalone Mode下的client mode和cluster mode

专注于后端开发，时常接触大数据、人工智能等

10-23

410

1 . 有问题找百度,百度上搜索spark 2. 进入spark官网,找到对应的版本的文档.因为我的是spark2.1.2版本 3.进入spark的2.1.2文档后,看到Running the Examples and Shell和Launching on a Cluster Launching on a Cluster The Spark cluster mo...

Spark集群搭建-Standalone模式

最新发布

2302_81483786的博客

05-14

252

对应的命令是：tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module。进入/opt/module/把解压的内容重命名一下，mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。Spark 的 Standalone 模式是一种独立的集群部署模式，自带完整服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。要布置standalone模式，需要准备多台机器（linux，ip设置，能ping 百度），免密互联。

搭建Spark Standalone集群

梁辰兴的博客

04-19

1426

当应用程序运行时，Master会在集群中选择一个Worker进程启动一个名为DriverWrapper的子进程，该子进程即为Driver进程，所起的作用相当于YARN集群的ApplicationMaster角色，类似MapReduce程序运行时所产生的MRAppMaster进程。Spark Standalone集群使用Spark自带的资源调度框架，但一般我们把数据保存在HDFS上，用HDFS做数据持久化，所以Hadoop还是需要配置，但是可以只配置HDFS相关的，而Hadoop YARN不需要配置。

Spark Standalone Mode Configuration

weixin_30795127的博客

07-11

For currently popular distributed framework Spark, here it shows the intro and steps to configure the spark standalone mode on several machines. It is easy to configure it from stratch. The f...

Spark Standalone Mode:Differences between client and cluster deploy modes

专注于后端开发，时常接触大数据、人工智能等

10-23

353

1. 一个stackoverflow上的小伙伴首先提出一个问题 We have a Spark Standalone cluster with three machines, all of them with Spark 1.6.1: A master machine, which also is where our application is run using spark-submit ...

【Spark】【Standalone】【独立模式】

wq6qeg88的博客

02-17

920

要使用启动脚本启动Spark独立集群，您应该在Spark目录中创建一个名为conf/workers的文件，该文件必须包含您打算启动Spark workers的所有机器的主机名，每行一个。否则，默认情况下，每个执行器获取工作器上可用的所有核心，在这种情况下，在单个调度迭代期间，每个应用程序只能在每个工作器上启动一个执行器。您可以在每个版本中获取Spark的预构建版本，也可以自己构建。模式下，驱动程序是从集群内的一个Worker进程启动的，客户端进程在完成提交应用程序的责任后立即退出，而无需等待应用程序完成。

Spark基础学习笔记05：搭建Spark Standalone集群

lwmzl00的博客

06-17

1243

文章目录零、本讲学习目标搭建Spark Standalone模式的集群能够启动Spark Standalone模式的集群学会Spark应用程序的提交 Spark的两种集群运行模式：Spark Standalone模式和Spark On YARN模式。Standalone模式需要启动Spark集群，而Spark On YARN模式不需要启动Spark集群，只需要启动YARN集群即可。先来搭建Spark Standalone模式的集群。一、Spark Standalone架构 Spark Standal

Spark Standalone环境基本原理

feizuiku0116的博客

02-06

775

一、介绍 Standalone模式是Spark自带的一种集群模式，不同于前面本地模式启动多个进程来模拟集群的环境，Standalone模式是真实地在多个机器之间搭建Spark集群的环境，完全可以利用该模式搭建多机器集群，用于实际的大数据处理。二、本质 Standalone集群使用了分布式计算中的master-slave模型，master是集群中含有Master进程的节点，slave是集群中的Worker节点含有Executor进程。三、成员角色主节点Master：管理整个集群资源，接收提交应用，分配

Spark 中算子功能与分类介绍

warrior_zhang的专栏

01-12

4503

最近看了一些SPARK资料，还没有系统性的整理，这里先归纳一下spark中算子的总结。如有什么错误或者不妥之处，希望大神们指出，相互交流共同进步！！哈哈哈算子的定义：RDD中定义的函数，可以对RDD中的数据进行转换和操作。下面根据算子类型的分类进行总结：

搭建spark cluster网络设置，ipv6关闭，ipv4设置，DNS设置

warrior_zhang的专栏

12-06

2506

搭建spark cluster网络设置，ipv6关闭，ipv4设置，DNS设置 1. 虚拟机之间ping不通 2. 网卡重启 3. 关闭ipv6 4. ipv4 地址设置

搭建spark cluster过程中 scp传送文件文件权限管理磁盘及文件使用情况

warrior_zhang的专栏

01-12

1036

1. scp就是ssh-copy，我是这么理解的。。。用于不同系统之间拷贝文件或者目录指令格式 scp [o

spark RDD

warrior_zhang的专栏

01-12

577

1. SPARK 中 RDD 的基本操作流程 RDD创建->RDD转换->RDD控制->RDD运行。 RDD创建：RDD的初始创建是由SparkContent来负责的，有内存或者外存文件系统作为数据源 RDD转换：讲一个RDD通过一定的操作转换为另一种RDD RDD控制：对RDD进行持久化，令RDD保存在磁盘或者内存中，以便后续重复使用 RDD运行

搭建spark cluster过程中遇到的网络问题

warrior_zhang的专栏

01-12

450

1. 虚拟机之间ping不通虚拟机的网络模式设置成桥接模式，网卡选择eth0，而且要为虚拟机设置不同的ip地址；如果虚

spark standalone

03-25

### 配置和使用 Spark Standalone 模式 #### 安装 Spark Standalone 模式要设置 Spark 的独立模式 (Standalone Mode)，可以按照以下方式操作。首先，在集群中的每个节点上部署已编译好的 Spark 版本文件夹。可以通过官方发布的预构建版本或者自行编译来获得这些文件[^2]。 #### 启动集群手动启动集群时，需要分别运行 `start-master.sh` 和 `start-slave.sh` 脚本来初始化 Master 和 Worker 进程。Master 是整个集群的核心管理器，而 Slave 则代表各个工作节点。通过指定 Master URL (`spark://<master-host>:7077`) 来让 Workers 注册到对应的 Master 上。对于更复杂的环境配置，还可以利用脚本自动化批量分发并启动服务进程；此外也有图形界面监控工具可供查看当前系统的状态信息以及历史作业记录等数据[^3]。 #### 使用 Client 或 Cluster Deploy Modes 当提交应用程序至 Spark 独立集群执行时，有两种主要的部署模式可以选择——Client 模式与 Cluster 模式： - **Client 模式**: Driver 程序会在客户端本地运行，并连接远程服务器完成计算任务处理流程。这种方式适合调试阶段因为便于日志观察及错误排查等工作[^1]。 - **Cluster 模式**: 将 driver 移植到了 worker 节点内部去运作，从而使得 master 不再承担额外负载压力的同时提高了整体性能表现水平。不过由于缺乏直接交互能力所以通常用于生产环境中长期无人值守的任务调度场景下更为合适一些。以下是简单的 Python API 示例代码展示如何向不同类型的 spark-submit 命令附加参数以适应上述两种情况之一的需求: ```python from pyspark.sql import SparkSession # 创建一个新的会话实例对象 spark = SparkSession.builder \ .appName("example") \ .getOrCreate() data = [("James", "", "Smith"), ("Anna", "Rose", ""), ("Mike", "John", "Williams")] columns = ["firstname", "middlename", "lastname"] df = spark.createDataFrame(data=data, schema=columns) df.show() ``` 如果采用的是 client 方式，则只需要简单调用如下命令即可： ```bash ./bin/spark-submit --class com.example.MainApp --deploy-mode client /path/to/jarfile.jar arg1 arg2 ... ``` 如果是 cluster 方法的话则需改成这样形式传递选项进去： ```bash ./bin/spark-submit --class com.example.MainApp --deploy-mode cluster --master spark://HOST:PORT hdfs:///path/to/jarfile.jar arg1 arg2 ... ``` 以上就是关于怎样设定好并且运用 Spark 在 standalone mode 下的一些基本指导原则了。

spark standalone mode

1. Installing Spark Standalone to a Cluster To install Spark Standalone mode, you simply place a compiled version of Spark on each node on the cluster.

2. Starting a Cluster Manually

1)at master

2)at worker

3. Connecting an Application to the Cluster

command to start app in spark

4.submit jar

mode:down at spark dir

example:at standalone

1. Installing Spark Standalone to a Cluster
To install Spark Standalone mode, you simply place a compiled version of Spark on each node on the cluster.