spark安装

本文档介绍了在已安装Hadoop的前提下,如何在Linux环境下下载、安装Spark,并进行伪分布式配置。首先通过axel加速下载Spark,然后解压并重命名文件夹,将其移动到/export/servers/目录。接着在Hadoop节点创建对应目录。启动时发现Master和Worker未启动,原因是配置文件中的IP错误。解决方案是修正Spark-env.sh和/etc/profile中的IP地址,重新source配置并启动。执行stop-all.sh和start-all.sh完成重启。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

前提:已经安装了Hadoop

下载:Downloads | Apache Spark

或者Linux上下载:

wget https://archive.apache.org/dist/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz

速度太慢了,换一种:

 axel -a -n 10 https://archive.apache.org/dist/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz

如果没有axel命令的话,就安装一下: yum install axel

下载完成了,解压一下:tar xzvf spark-2.2.3-bin-hadoop2.7.tgz 

修改下文件夹: mv spark-2.2.3-bin-hadoop2.7 spark
放到其他目录,没有的话新建目录。mv spark /export/servers/

cd /export/servers/spark/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
# 指定JAVA HOME
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.282.b08-1.el7_9.x86_64/jre

# 指定SPARK MASTER 地址
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

# 指定 SPARK History 运行参数
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplication=3 -Dspark.history.fs.logDirecto
ry=hdfs://master:8020/spark_log"

cp slaves.template slaves
vi slave

cp spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf
spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://master:8020/spark_log
spark.eventLog.compress true
hdfs dfs -mkdir -p /spark_log

cd /export/servers
scp -r spark hadoop@hadoop1:$PWD
scp -r spark hadoop@hadoop2:$PWD

Hadoop1和Hadoop2没有文件夹,分别建一下:

cd /
sudo mkdir export
sudo mkdir servers

在master启动整个集群:

cd /export/servers/spark
sbin/start-all.sh
sbin/start-history-server.sh 

需要输入三次密码:

jps的时候,hadoop1和hadoop2并没有worker

配置Spark伪分布式环境的时候,source  /etc/profile之后,jps查看进程中只有jps进程,没有Master和Worker进程。造成这种情况的原因就是配置spark-env.sh和/etc/profile文件的时候Spark主节点的IP和Spark本地的IP配置错误。
解决:

cd /export/servers/spark/conf
vim spark-env.sh

添加:

export SPARK_MASTER=192.168.43.30
export SPARK_LOCAL=127.0.0.1

再修改/etc/profile文件

vim /etc/profile
#spark
export SPARK_MASTER_IP=192.168.43.30
export SPARK_LOCAL_IP=127.0.0.1

修改完成:source /etc/profile 启动配置

接下来:cd /export/servers/spark/sbin

关闭 stop-all.sh 再重新启动 start-all.sh 即可。

### 如何在不同操作系统上安装 Apache Spark #### 安装前准备 为了确保顺利安装 Apache Spark,在任何操作系统下都需要先确认已正确安装 Java 环境以及设置好 JAVA_HOME 变量。对于某些特定场景,可能还需要额外配置 Hadoop 或其他依赖项[^3]。 #### Mac OS 上的安装方式 利用 Homebrew 工具可以让 macOS 用户轻松完成 Spark 的部署工作。通过终端执行命令 `brew install apache-spark` 即可快速获取最新稳定版 Spark 并自动处理大部分必要的初始化操作[^1]。 #### Linux 发行版上的安装指南 大多数主流 Linux 发行版支持通过包管理器来简化软件安装流程。例如 Ubuntu/Debian 类系统可以通过 APT 软件库下载官方二进制文件;而 CentOS/RHEL 则推荐采用 yum 或者 dnf 来获得 RPM 打包好的版本。除此之外,也可以直接前往官方网站下载 tarball 文件解压至自定义路径再手动调整 PATH 参数指向 bin 目录下的工具链[^4]。 #### Windows 下的手动安装过程 Windows 用户通常会选择从官网获取预编译压缩包形式发布的 Spark 版本。解压缩之后需自行设定 SPARK_HOME 和更新系统的 Path 设置以便全局调用 spark-shell 等 CLI 实用程序。值得注意的是由于缺乏原生 POSIX 支持所以在 Win 平台上可能会遇到兼容性问题因此建议考虑借助 WSL (Windows Subsystem for Linux) 进行跨平台开发测试活动。 ```bash # 使用 Homebrew 在 MacOS 上安装 Spark $ brew install apache-spark # 在 Debian/Ubuntu 上使用 apt-get 安装 Spark $ sudo apt-get update && sudo apt-get install -y apache-spark # 在 RedHat/CentOS/Fedora 上使用 yum/dnf 安装 Spark $ sudo yum install -y epel-release $ sudo yum install -y apache-spark # 解压并设置环境变量(适用于所有平台) export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值