spark 集群搭建*(3节点)

本文介绍如何在Hadoop环境中安装配置Spark集群,并通过不同模式运行Spark应用程序进行测试。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

spark环境安装

一. 下载安装

下载地址http://spark.apache.org/downloads.html

Standalone模式的spark集群虽然不依赖于yarn但是数据文件存在hdfs,所以需要hdfs集群启动成功

这里下载包也要根据hadoop集群版本启动

比如hadoop2.5.2需要下载spark-1.4.0-bin-hadoop2.4.tgz


 

下载解压进入解压缩目录

配置启动

进入conf目录发现只有slaves.templatespark-env.sh.template这里可以拷贝一份把template的后缀去掉



配置slaves,里面配置从节点的主机名或者ip,例如


 vim slaves

node1

node2

node3

配置spark-env.sh,和JAVA_HOME

export JAVA_HOME=/opt/soft/jdk1.7.0_79

export SPARK_MASTER_IP=master

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=1

export SPARK_WORKER_INSTANCES=1

export SPARK_WORKER_MEMORY=512m

 

注意如果想要跑spark on yarn则需要配置HADOOP_CONF_DIR

spark-env.sh或者/etc/profile下面配置都可以

二. 测试  

访问192.168.57.4:8080能看到web界面

 

执行命令./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 ./lib/spark-examples-1.5.2-hadoop2.4.0.jar 100

 

 

 

附录

不同运行模式的命令不同

1. standalone client模式

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 ./lib/spark-examples-1.5.2-hadoop2.4.0.jar 100

2. standalone cluster模式

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://spark001:7077 --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 ./lib/spark-examples-1.5.2-hadoop2.4.0.jar 100

3. on yarn client模式

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 1 ./lib/spark-examples-1.5.2-hadoop2.4.0.jar 100

4. on yarn cluster模式

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 1 ./lib/spark-examples-1.5.2-hadoop2.4.0.jar 100

搭建Spark集群涉及多个步骤,包括环境准备、配置文件设置、启动集群以及验证集群是否正常运行。以下是一个完整的Spark集群搭建流程及实验报告模板。 ### 环境准备 在搭建Spark集群之前,需要确保以下软件已经安装并正确配置: - **Java**:确保所有节点上安装了Java 8或更高版本。 - **Scala**:Spark依赖于Scala,因此需要安装Scala。 - **Hadoop**:虽然Spark可以独立运行,但通常与Hadoop集成使用。 - **SSH**:确保所有节点之间可以通过SSH无密码访问。 ### 安装和配置Spark 1. **下载Spark**: - 从[Spark官网](https://spark.apache.org/downloads.html)下载适合的Spark版本(例如Spark 2.4.4)。 - 解压并安装Spark。 2. **配置环境变量**: - 在所有节点上设置`SPARK_HOME`环境变量,并将其添加到`PATH`中。 3. **配置Spark集群**: - 编辑`conf/spark-env.sh`文件,设置`JAVA_HOME`、`SPARK_MASTER_HOST`等参数。 - 编辑`conf/slaves`文件,列出所有Worker节点的主机名或IP地址。 4. **启动Spark集群**: - 在主节点上执行以下命令启动Master节点: ```bash sbin/start-master.sh ``` - 在所有Worker节点上执行以下命令启动Worker节点: ```bash sbin/start-slave.sh spark://<master-hostname>:7077 ``` 5. **验证集群**: - 打开浏览器,访问`http://<master-hostname>:8080`查看集群状态。 - 提交一个简单的Spark作业进行测试,例如计算Pi的示例: ```bash bin/spark-submit --master spark://<master-hostname>:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.4.4.jar 1000 ``` ### 实验报告模板 #### 实验目的 - 了解Spark的基本架构和工作原理。 - 掌握如何搭建和配置Spark集群。 - 验证集群的正常运行。 #### 实验环境 - 操作系统:Ubuntu 18.04 LTS - Java版本:OpenJDK 8 - Scala版本:2.11.7 - Spark版本:2.4.4 - Hadoop版本:3.2.1 - 集群规模:1个Master节点3个Worker节点 #### 实验步骤 1. **环境准备**: - 安装Java、Scala、Hadoop。 - 配置SSH无密码登录。 2. **安装和配置Spark**: - 下载并解压Spark。 - 配置`spark-env.sh`和`slaves`文件。 3. **启动Spark集群**: - 启动Master节点和Worker节点。 4. **验证集群**: - 通过Web界面查看集群状态。 - 提交测试作业验证集群功能。 #### 实验结果 - 集群启动成功,Web界面显示正常。 - 提交的Spark作业成功运行,输出结果正确。 #### 实验总结 - 总结搭建过程中遇到的问题及解决方法。 - 分析Spark集群的优势和应用场景。 #### 附录 - 提供完整的配置文件和代码示例。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值