spark-2.4 安装教程

 

spark 安装教程spark 是基于hadoop和scala,所以首先需要安装hadoop和scala。
1.安装scala
scala下载网址:https://www.scala-lang.org/download/ 
下载 scala-2.13.0.tgz
安装步骤如下:
cd /usr/local/wutongyu/AIOps
#解压
tar -zxvf scala-2.13.0.tgz 
#将解压文件移动到如下目录
/usr/local/wutongyu/AIOps/scala/
# 编辑profile,在最后 添加scala路径
vim  /etc/profile
export PATH="$PATH:/usr/local/wutongyu/AIOps/scala/bin"
#及时生效
source /etc/profile
#检查是否安装成功
scala
​
2.安装hadoop
hadoop下载网址: https://archive.apache.org/dist/hadoop/common/ 
下载 hadoop-3.1.2.tar.gz
安装步骤如下:
cd /usr/local/wutongyu/AIOps
#解压
tar -zxvf hadoop-3.1.2.tar.gz
#将解压文件移动到如下目录
/usr/local/wutongyu/AIOps/hadoop/
#配置JAVA环境变量,jdk安装省略
vim /etc/profile
#在文件最后配置如下内容
export JAVA_HOME=/usr/java/jdk1.8.0_131
export CLASSPATH=$JAVA_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH
#及时生效
source /etc/profile
#检查版本信息
./bin/hadoop version
​
3.安装spark
spark下载地址:http://mirrors.hust.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
安装步骤如下:
cd /usr/local/wutongyu/AIOps
#解压
tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz 
#将解压文件移动到如下目录
/usr/local/wutongyu/AIOps/spark/
#配置conf/spark-env.sh 文件,拷贝模板文件
cp spark-env.sh.template spark-env.sh
#在spark-env.sh文件增加内容如下:
export JAVA_HOME=/usr/java/jdk1.8.0_131 #Java环境变量
export SCALA_HOME=/usr/local/wutongyu/AIOps/scala
export SPARK_WORKING_MEMORY=521m #每一个worker节点上可用的最大内存
export SPARK_MASTER_IP=192.168.0.118 #驱动器节点IP
export HADOOP_HOME=/usr/local/wutongyu/AIOps/hadoop #Hadoop路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop #Hadoop配置目录
#配置spark环境变量
vim /etc/profile
export SPARK_HOME=/usr/local/wutongyu/AIOps/spark
export PATH=$PATH:$SPARK_HOME/bin
#及时生效
source /etc/profile
#检查安装情况
jps

 

### Spark 2.4安装教程及基本使用方法 #### 安装前的准备 为了顺利安装 Spark 2.4,需要先完成以下几个环境依赖的准备工作: 1. **JDK 安装 (Version: 1.8)** JDK 是运行 Java 应用程序的基础环境,Spark 需要 JDK 来执行其核心功能。可以通过官方渠道下载并安装 JDK[^1]。 2. **Scala 安装 (Version: 2.11.12)** 虽然 Spark 可以独立于 Scala 运行,但由于 Spark 使用 Scala 编写,因此建议安装对应的 Scala 版本以便更好地支持开发工作。可以从官网或其他可信源获取并安装 Scala。 3. **Hadoop 安装 (Optional, Version: 2.7.2 或更高版本)** 如果计划将 SparkHadoop 结合使用,则需提前安装 Hadoop 并配置好 HDFS 文件系统。可以参考相关文档启动 `start-dfs.sh` 和 `start-yarn.sh` 脚本来初始化 Hadoop 集群[^5]。 --- #### 下载与安装 Spark 2.4 以下是具体的安装步骤: 1. **从官方网站下载 Spark** 访问 Apache Spark 官方网站或指定镜像站点,选择适合的操作系统和版本(如 Spark 2.4.7),并将文件保存至本地磁盘[^2]。 2. **解压缩文件** 将下载好的 `.tgz` 压缩包放置在目标目录中,例如 `/opt/` 或其他自定义路径,随后执行以下命令进行解压: ```bash tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz ``` 3. **设置环境变量** 修改系统的 shell 配置文件(如 `.bashrc` 或 `.zshrc`),添加如下内容以确保能够全局调用 Spark 工具链: ```bash export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ``` 执行 `source ~/.bashrc` 刷新配置生效。 4. **验证安装是否成功** 输入以下命令测试 Spark 是否正常加载: ```bash spark-shell ``` 若无错误提示且进入交互式 REPL 界面,则表示安装已完成。 --- #### 基本使用方法 一旦完成了上述操作,即可尝试一些简单的任务来熟悉 Spark 的运作机制: 1. **启动 Spark Shell** 启动内置的 Scala 解释器用于快速编写代码片段: ```bash spark-shell ``` 2. **创建 RDD 数据集** Resilient Distributed Dataset (RDD) 是 Spark 中的核心抽象概念之一,下面展示如何构建一个基础数据集合: ```scala val data = sc.parallelize(List(1, 2, 3, 4)) println(data.collect().mkString(", ")) ``` 3. **提交作业到集群模式** 当处理大规模计算需求时,可利用 `spark-submit` 提交应用程序脚本给远程节点执行: ```bash spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ /path/to/examples.jar 10 ``` 4. **访问 Web UI 接口** 默认情况下,Spark 提供了一个图形化的监控面板,默认地址位于 `http://<driver-host>:4040`,便于实时跟踪任务进度和资源分配情况[^3]。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值