安装分布式spark

Spark 3.0 集群搭建指南

1. 下载

http://spark.apache.org/downloads.html

如:版本自行选择

sudo wget https://mirror.bit.edu.cn/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz

2. 解压

 sudo tar -zxvf spark-3.0.0-preview2-bin-hadoop3.2.tgz -C  /usr/local/bigdata/
mv spark-3.0.0-preview2-bin-hadoop3.2/ spark

3. 配置环境变量

vim ~/.bashrc

加入以下内容:

export JAVA_HOME=/usr/local/jdk
export SPARK_HOME=/usr/local/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

4.1  配置slave文件

sudo cp ./conf/slaves.template ./conf/slaves

编辑slaves文件,指定子节点

slave1
slave2

 

4.2 配置spark-env.sh,加入以下内容

sudo cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑加入以下内容

export SPARK_DIST_CLASSPATH=$(/usr/local/bigdata/hadoop/hadoop-3.2.1/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/bigdata/hadoop/hadoop-3.2.1/etc/hadoop
export SPARK_MASTER_IP=主节点的ip

注:注意ip是master的ip,文件路径要对,是基于hadoop的文件路径

5. 打包并且发送到两个slave节点

打包

tar -zcf ~/spark.master.tar.gz ./spark

发送到子节点

cd ~
scp spark.master.tar.gz slave2:/home/hadoop/

6. slave节点解压

sudo tar -zxf ~/spark.master.tar.gz -C /usr/local/bigdata


 

7. 启动集群

主节点执行

./sbin/start-master.sh

权限不足执行:

sudo chown -R hadoop hadoop ./spark/

启动成功

可以看出多出了一个Master进程,说明master启动成功

下面启动slave节点,在master节点执行

./sbin/start-slaves.sh

可以看出子节点多出了一个Work进程。

访问http://master:8080

安装完毕!

在 Hadoop 3.6 环境下安装和配置伪分布式Spark 环境,需要确保系统已正确配置 Hadoop 伪分布式环境,并在此基础上部署 Spark。以下是详细步骤: ### 安装和配置 Spark分布式环境 #### 1. 下载和解压 Spark 前往 [Apache Spark 官网](https://spark.apache.org/downloads.html) 下载适用于 Hadoop 3.6 的 Spark 发行包(例如 `spark-3.5.0-bin-hadoop3.6.tgz`)。 ```bash # 解压 Spark 安装包到指定目录 tar -xvzf spark-3.5.0-bin-hadoop3.6.tgz -C /opt/spark/ ``` #### 2. 配置环境变量 编辑 `/etc/profile` 文件,添加 Spark 相关的环境变量[^3]: ```bash # Spark Environment Variables export SPARK_HOME=/opt/spark/spark-3.5.0-bin-hadoop3.6 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin ``` 执行以下命令使环境变量生效: ```bash source /etc/profile ``` #### 3. 配置 Spark 环境 进入 Spark 配置目录: ```bash cd $SPARK_HOME/conf ``` - **spark-env.sh** 复制模板文件并编辑: ```bash cp spark-env.sh.template spark-env.sh ``` 编辑 `spark-env.sh` 文件,添加以下内容: ```bash export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 根据实际路径修改 export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop # Hadoop 配置目录 export SPARK_MASTER_HOST=localhost # Spark 主节点地址 ``` - **slaves**(或 `workers`) Spark 3.x 之后的版本中 `slaves` 文件已更名为 `workers`。编辑 `workers` 文件,添加工作节点的主机名(伪分布式模式下只需添加 `localhost`): ``` localhost ``` #### 4. 启动 Spark分布式环境 - **启动 Spark Master** ```bash $SPARK_HOME/sbin/start-master.sh ``` 访问 `http://localhost:8080` 可查看 Spark Web UI。 - **启动 Spark Worker** ```bash $SPARK_HOME/sbin/start-worker.sh spark://localhost:7077 ``` #### 5. 测试 Spark 与 Hadoop 集成 可以运行一个简单的 Spark 应用程序来测试与 Hadoop 的集成情况。例如,使用 `SparkPi` 示例: ```bash $SPARK_HOME/bin/run-example SparkPi 10 ``` 该示例会计算 π 的近似值,并输出结果。 #### 6. 提交 Spark 作业到 Hadoop YARN 如果希望在 Hadoop YARN 上运行 Spark 作业,需配置 `spark-defaults.conf` 文件: ```bash # Spark on YARN 配置 spark.master yarn spark.submit.deployMode client spark.yarn.jars hdfs:///user/spark/jars/*.jar # 指向 HDFS 上的 Spark jars 目录 ``` 上传 Spark jars 到 HDFS: ```bash hadoop fs -mkdir -p /user/spark/jars hadoop fs -put $SPARK_HOME/jars/*.jar /user/spark/jars/ ``` 提交作业示例: ```bash $SPARK_HOME/bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode client \ $SPARK_HOME/examples/jars/spark-examples_2.12-3.5.0.jar 10 ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值