Spark Standalone模式安装

本文详细介绍如何在CentOs 7.5环境下安装Spark 2.3.1,并配置其与Hadoop 2.7.3协同工作。通过创建用户、设置环境变量等步骤完成安装流程,最终实现Spark的单机运行。

CentOs下安装Spark:

安装环境:
Linux:CentOs 7.5
Spark:2.3.1
Hadoop:2.7.3
下载:
Spark:http://spark.apache.org/downloads.html
本文选择版本:
https://archive.apache.org/dist/spark/spark-2.3.1/
在这里插入图片描述

安装:

  1. 新建分组机用户
## 新建用户
useradd hadoop
## 设置密码
passwd hadoop
## 切换到hadoop用户
su - hadoop
mkdir hd
cd hd
## 解压上传的安装文件
tar zxvf spark-2.3.1-bin-hadoop2.7.tgz
mv spark-2.3.1-bin-hadoop2.7 spark-2.3.1
cd spark-2.3.1
## 修改文件权限
chmod 775 * -R
## 修改配置
cd conf/
cp spark-env.sh.template spark-env.sh

2.修改配置文件
在spark-env.sh中添加 环境变量

export JAVA_HOME=/home/hadoop/hd/jdk1.8.0_144
export SPARK_MASTER_IP=localhost
export SPARK_WORK_MEMORY=1g
## hadoop安装的目录, hadoop安装参考hadoop的伪分布式安装步骤
export SPARK_CONF_DIR=/home/hadoop/hd/hadoop-2.7.3/etc/hadoop
## 如果需要使用Scala还可以加入Scala的环境变量
  1. 启动spark
sbin/start-all.sh
  1. jps查看进程
    进程查看结果

  2. 执行pyspark 命令

bin/pyspark 

在这里插入图片描述
至此,Spark单机版安装成功。

SparkUI访问

访问已安装的SparkUI:http://192.168.134.133:8080/

SparkUI

### Spark Standalone模式安装配置教程 在Standalone模式安装和配置Spark,需要确保系统环境已经准备好,并按照以下内容逐步完成操作。以下是详细的安装与配置指南[^1]。 #### 1. 系统环境准备 确保所有节点(包括Master和Worker)已正确安装以下组件: - Java Development Kit (JDK):推荐版本为8或11。 - Scala(可选,通常Spark自带Scala库)。 - Hadoop(如果需要与HDFS集成,则需安装并配置Hadoop集群)。 检查Java版本是否正确: ```bash java -version ``` #### 2. 下载并解压Spark软件包 从Apache官网下载适合的Spark版本,并将其上传至目标服务器。使用以下命令解压软件包: ```bash tar -zxvf spark-<version>-bin-hadoop<version>.tgz ``` 将解压后的文件移动到合适的位置,例如`/opt/spark`: ```bash mv spark-<version>-bin-hadoop<version> /opt/spark ``` #### 3. 配置环境变量 编辑`~/.bashrc`文件,添加以下内容以设置Spark的环境变量: ```bash export SPARK_HOME=/opt/spark export PATH=$SPARK_HOME/bin:$PATH ``` 使配置生效: ```bash source ~/.bashrc ``` #### 4. 配置Spark Master和Worker 进入Spark的配置目录: ```bash cd $SPARK_HOME/conf ``` ##### 4.1 配置`spark-env.sh` 复制模板文件并编辑: ```bash cp spark-env.sh.template spark-env.sh ``` 在`spark-env.sh`中添加以下内容以指定Java路径和其他环境变量: ```bash export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export SPARK_MASTER_HOST=master ``` ##### 4.2 配置`slaves`文件 复制模板文件并编辑: ```bash cp slaves.template slaves ``` 在`slaves`文件中列出所有Worker节点的主机名或IP地址,例如: ``` worker1 worker2 worker3 ``` #### 5. 启动Spark集群 启动Master节点: ```bash $SPARK_HOME/sbin/start-master.sh ``` 启动Worker节点: ```bash $SPARK_HOME/sbin/start-slave.sh spark://master:7077 ``` 验证集群状态,访问Master节点的Web UI(默认端口为8080): ``` http://<master-ip>:8080 ``` #### 6. 提交任务 使用`spark-submit`命令提交任务[^2]。例如: ```bash spark-submit --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 \ --executor-memory 512m \ --total-executor-cores 1 \ $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.3.jar 100 ``` ### 注意事项 - 确保所有节点之间能够通过主机名互相通信。 - 如果防火墙启用,请开放必要的端口(如7077、8080等)[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值