安装双节点spark集群,并求取工资中位数

本文详细介绍了如何在两节点环境中部署Spark,包括安装Java和Spark,配置相关文件,编写并运行Spark代码,以及构建和提交Jar包到Spark集群。重点展示了如何读取HDFS数据、处理中间值计算等Spark操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    

    

    

    

目录

一、Spark双节点部署. 2

1.1、安装Java 2

1.2、下载Spark安装包. 2

1.3、Spark文件配置. 3

1.3.1、修正配置文件名称. 3

1.3.2、配置workers文件. 3

1.3.2、配置spark-env.sh文件. 4

1.3.4、启动Spark 4

二、Spark代码. 5

2.1、完整代码. 5

2.2、代码解释. 6

2.2.1、导入包和spark程序设置. 6

2.2.2、读取数据. 6

2.2.3、数据转换. 7

2.2.4、获取中间值. 7

2.2.5、计算中间值. 8

三、Spark集群运行代码. 8

3.1、构建Jar包. 8

3.2、上传数据和Jar包. 10

3.3、运行Jar包并指定结果文件. 10

3.4、查看结果. 11

1.1、安装Java

因为Spark需要在Java环境才能运行,所以需要在所有节点上安装Java。首先,准备一份JDK,然后使用软件Xftp进行上传到目录/opt下。然后进入控制台输入以下命令解压JDK到/usr/local目录下。
注意 :这里的所有步骤都是在虚拟机内进行的。镜像为 Centos 7。其中xshell和xftp都是对虚拟机的系统进行相关操作的工具。它们的详细介绍请参考我的前篇文章
 

tar zxvf jdk-8u341-linux-x64.tar.gz -C /usr/local/

1.2、下载Spark安装包

首先,进入到spark官网,去下载该安装包,如图所示。

下载好后,同Java一样使用Xftp上传到Linux终端的/opt下。

使用命令解压到/usr/local下。注意搭建双节的Spark集群,两个包的解压路径必须一致。

tar zxvf spark-3.3.2-bin-hadoop3-scala2.13_2.tgz -C /usr/local/

然后开始配置相关的Spark的文件。

1.3、Spark文件配置

在完成JDK和Spark包解压完成之后方可进行此步操作。以下操作在主节点master和从节点node中都要去配置

1.3.1、修正配置文件名称

首先进入spark的安装目录 usr/local 下,使用以下命令修改Spark的安装目录的名称。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉淀码员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值