spark2.4安装

本文介绍了Spark集群环境的配置与验证过程。包括配置环境变量、spark-env.sh和slaves文件,将spark目录文件同步到其他节点,启动spark。还说明了验证spark是否成功的方法,如使用jps命令、通过web页面查看节点和job任务情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、配置环境变量

export SPARK_HOME=/opt/module/spark-2.4.3
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile

2、spark-env.sh文件配置

cd /opt/module/spark-2.4.3/conf/
 cp spark-env.sh.template spark-env.sh
 vi spark-env.sh
 
增加以下内容:
export JAVA_HOME=/opt/module/jdk1.8 #Java环境变量
export SCALA_HOME=/opt/module/scala-2.13.0 #SCALA环境变量
export SPARK_WORKING_MEMORY=521m #每一个worker节点上可用的最大内存
export SPARK_MASTER_IP=hdp1 #驱动器节点IP
export HADOOP_HOME=/opt/module/hadoop-2.7.7 #Hadoop路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop #Hadoop配置目录
export SPARK_CLASSPATH=/opt/module/hbase-2.1.5/lib/* #hbase依赖

3、slaves文件配置

cp slaves.template slaves
文件中增加slave节点名称(单机版不用加):
slave1
slave2

4、spark目录文件同步到其他节点(集群)

5、启动spark

cd /opt/module/spark-2.4.3/sbin/
./start-all.sh

6、验证spark是否成功
jps

Master # spark主进程
Worker # spark工作节点进程

web页面查看spark节点情况
http://172.16.81.130:8080/

spark查看job任务情况
http://172.16.81.130:4040

参考文档:
https://blog.youkuaiyun.com/weixin_42267009/article/details/80400547
https://blog.youkuaiyun.com/genus_yang/article/details/88018392

### Spark 2.4安装教程及基本使用方法 #### 安装前的准备 为了顺利安装 Spark 2.4,需要先完成以下几个环境依赖的准备工作: 1. **JDK 安装 (Version: 1.8)** JDK 是运行 Java 应用程序的基础环境,Spark 需要 JDK 来执行其核心功能。可以通过官方渠道下载并安装 JDK[^1]。 2. **Scala 安装 (Version: 2.11.12)** 虽然 Spark 可以独立于 Scala 运行,但由于 Spark 使用 Scala 编写,因此建议安装对应的 Scala 版本以便更好地支持开发工作。可以从官网或其他可信源获取并安装 Scala。 3. **Hadoop 安装 (Optional, Version: 2.7.2 或更高版本)** 如果计划将 Spark 和 Hadoop 结合使用,则需提前安装 Hadoop 并配置好 HDFS 文件系统。可以参考相关文档启动 `start-dfs.sh` 和 `start-yarn.sh` 脚本来初始化 Hadoop 集群[^5]。 --- #### 下载与安装 Spark 2.4 以下是具体的安装步骤: 1. **从官方网站下载 Spark** 访问 Apache Spark 官方网站或指定镜像站点,选择适合的操作系统和版本(如 Spark 2.4.7),并将文件保存至本地磁盘[^2]。 2. **解压缩文件** 将下载好的 `.tgz` 压缩包放置在目标目录中,例如 `/opt/` 或其他自定义路径,随后执行以下命令进行解压: ```bash tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz ``` 3. **设置环境变量** 修改系统的 shell 配置文件(如 `.bashrc` 或 `.zshrc`),添加如下内容以确保能够全局调用 Spark 工具链: ```bash export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ``` 执行 `source ~/.bashrc` 刷新配置生效。 4. **验证安装是否成功** 输入以下命令测试 Spark 是否正常加载: ```bash spark-shell ``` 若无错误提示且进入交互式 REPL 界面,则表示安装已完成。 --- #### 基本使用方法 一旦完成了上述操作,即可尝试一些简单的任务来熟悉 Spark 的运作机制: 1. **启动 Spark Shell** 启动内置的 Scala 解释器用于快速编写代码片段: ```bash spark-shell ``` 2. **创建 RDD 数据集** Resilient Distributed Dataset (RDD) 是 Spark 中的核心抽象概念之一,下面展示如何构建一个基础数据集合: ```scala val data = sc.parallelize(List(1, 2, 3, 4)) println(data.collect().mkString(", ")) ``` 3. **提交作业到集群模式** 当处理大规模计算需求时,可利用 `spark-submit` 提交应用程序脚本给远程节点执行: ```bash spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ /path/to/examples.jar 10 ``` 4. **访问 Web UI 接口** 默认情况下,Spark 提供了一个图形化的监控面板,默认地址位于 `http://<driver-host>:4040`,便于实时跟踪任务进度和资源分配情况[^3]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值