大数据学习笔记 2.1 spark开发环境的搭建

Spark集群部署与环境搭建详解

原创

已于 2023-05-08 14:26:17 修改 · 1.1k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #spark #学习

于 2023-05-08 09:54:04 首次发布

文章详细介绍了如何准备Spark集群的部署环境，包括检查JDK版本、下载安装Spark、配置环境变量，以及搭建SparkStandalone单机版和集群版的过程。此外，还讲解了Spark的三种部署模式：Standalone、Mesos和Yarn，以及如何使用SparkShell进行交互式编程和理解弹性分布式数据集RDD的概念。

目录

一、准备工作

二、了解Spark的部署模式

1、Standalone模式

2、Mesos模式

三、搭建Spark单机版环境

1、查看jdk版本

2、下载、安装与配置Spark

3、将Spark安装包上传到虚拟机

4、将Spark安装包解压到指定目录

5、配置Spark环境变量

6、使用Spark单机版环境

6.1、使用SparkPi来计算Pi的值

6.2、使用Scala版本Spark-Shell

6.3、使用Python版本Spark-Shell

编辑 6.4、初识弹性分布式数据集RDD

四、搭建Spark Standalone集群

1、Spark Standalone架构

1.1、client提交方式

1.2、cluster提交方式

2、Spark集群拓扑

3、前提条件：安装配置了分布式Hadoop环境

4、在master虚拟机上安装配置Spark

4.1、将spark安装包上传到master虚拟机

4.2、将spark安装包解压到指定目录

4.3、配置spark环境变量

4.4、编辑spark环境配置文件

4.5、创建slaves文件，添加从节点

5、在slave1虚拟机上安装配置Spark

5.1、把master虚拟机上安装的spark分发给slave1虚拟机

5.2、将master虚拟机上环境变量配置文件分发到slave1虚拟机

5.3、在slave1虚拟机上让spark环境配置文件生效

6、在slave2虚拟机上安装配置Spark

6.1、把master虚拟机上安装的spark分发给slave2虚拟机

6.2、将master虚拟机上环境变量配置文件分发到slave2虚拟机

6.3、在slave2虚拟机上让spark环境配置文件生效

7、启动Spark Standalone集群

7.1、启动hadoop的dfs服务

7.2、启动Spark集群

8、访问Spark的WebUI

9、启动Scala版Spark Shell

10、提交Spark应用程序

10.1、提交语法格式

10.2、spark-submit常用参数

10.3、案例演示 - 提交Spark自带的圆周率计算程序

11、停止Spark集群服务

一、准备工作

由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。
安装Spark集群前，需要安装Hadoop环境

软件	版本
Linux系统	CentOS7.9版本
Hadoop	3.3.4版本
JDK	1.8版本 (jdk8u231)
Spark	3.3.2版本

二、了解Spark的部署模式

1、Standalone模式

Standalone模式被称为集群单机模式。该模式下，Spark集群架构为主从模式，即一台Master节点与多台Slave节点，Slave节点启动的进程名称为Worker，存在单点故障的问题。

2、Mesos模式

Mesos模式被称为Spark on Mesos模式。Mesos是一款资源调度管理系统，为Spark提供服务，由于Spark与Mesos存在密切的关系，因此在设计Spark框架时充分考虑到对Mesos的集成。

3、Yarn模式

Yarn模式被称为Spark on Yarn模式，即把Spark作为一个客户端，将作业提交给Yarn服务。由于在生产环境中，很多时候都要与Hadoop使用同一个集群，因此采用Yarn来管理资源调度，可以提高资源利用率。

三、搭建Spark单机版环境

1、查看jdk版本

2、下载、安装与配置Spark

官网下载页面：https://spark.apache.org/downloads.html

下载链接：Apache Downloads
下载到本地

3、将Spark安装包上传到虚拟机

将Spark安装包上传到master虚拟机/opt目录

4、将Spark安装包解压到指定目录

命令：tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local

查看解压之后的spark目录

5、配置Spark环境变量

执行：vim /etc/profile

export SPARK_HOME=/usr/local/spark-3.3.2-bin-hadoop3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

存盘退出，执行命令：source /etc/profile，让环境配置生效

6、使用Spark单机版环境

6.1、使用SparkPi来计算Pi的值

执行命令：run-example SparkPi 2 （其中参数2是指两个并行度）
查看计算结果：Pi is roughly 3.140075700378502

6.2、使用Scala版本Spark-Shell

Spark-Shell是一个强大的交互式数据分析工具，初学者可以很好的使用它来学习相关API，用户可以在命令行下使用Scala编写Spark程序，并且每当输入一条语句，Spark-Shell就会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），Spark-Shell支持Scala和Python。
命令格式：spark-shell --master <master-url>
--master表示指定当前连接的Master节点
<master-url>用于指定Spark的运行模式

参数名称	参数名称
local	使用一个Worker线程本地化运行Spark
*local[]**	本地运行Spark，工作线程数量与本机CPU逻辑核心数量相同
local[N]	使用N个Worker线程本地化运行Spark
spark://host:port	Standalone模式下，连接到指定的Spark集群，默认端口7077
yarn-client	以客户端模式连接Yarn集群，集群位置可在HADOOP_CONF_DIR环境变量中配置
yarn-cluster	以集群模式连接Yarn集群，集群位置可在HADOOP_CONF_DIR 环境变量中配置
mesos://host:port	连接到指定的Mesos集群。默认接口是5050

执行spark-shell命令，相当于执行spark-shell --master local[*]命令，启动Scala版的Spark-Shell

访问Spark的Web UI界面 - http://192.168.219.75:4040

注意：Spark 3.3.2使用的Scala版本其实是2.12.15
计算1 + 2 + 3 + …… + 100

输出字符直角三角形

打印九九表

执行:quit命令，退出Spark Shell交互式环境

6.3、使用Python版本Spark-Shell

执行pyspark命令启动Python版的Spark-Shell
如果显示没有这个文件或目录，执行命令：yum -y install python3 进行安装

输出一条信息，进行加法运算，然后退出交互式环境

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。