Spark本地模式安装
Spark软件安装
Spark本地模式即单机模式,以一个独立的进程,通过其内部的多个线程来模拟整个Spark运行时环境,本地模式只需要在1台服务器上安装Spark即可。本地模式的安装非常简单,只需要将下载的Spark软件安装包解压到目标位置即安装完成。
tar -xzf spark-3.3.1-bin-hadoop3.tgz -C apps

下图展示了解压后的软件安装目录结构,其中:
- bin目录下存放了提交Spark应用程序需要用到的可执行命令,比如pyspark、spark-submit等命令;
- conf目录存放的是Spark的配置文件,这里可以配置Spark的部署模式,比如独立集群信息或者Yarn信息;
- jars目录存放的是Spark的依赖软件包,Spark各个组件的核心代码都放置在这里,如果需要与第三方框架集成,比如MySQL、Kafka等,需要用到的依赖包也需要添加到jars目录下;
- sbin目录下存放的是Spark集群管理相关的可执行命令,比如启动、停止集群的相关命令。

使用交互式pyspark运行代码
解压完成后,就可以验证安装结果了,由于目前还没有配置相关的环境变量,pyspark不能直接在任意路径执行,需要将工作目录切换到Spark的安装目录,并在此执行相关命令。
cd apps/spark-3.3.1-bin-hadoop3/
bin/pyspark

从交互式命令行界面,可以了解到一些当前环境的信息:
- Spark的版本是:version 3.3.1
- Python的版本是:version 3.8.10
- Spark Driver Web UI的地址是:http://node1.internal.cloudapp.net:4040
- 环境实例化了一个SparkContext对象,名为:sc
- 当前环境的master是:local[*]
- 环境实例化了一个SparkSession对象,名为:spark
如果访问Spark Driver Web UI地址,可以看到如下的界面。

其中:
- Jobs页面可以查看根据提交运行的Spark应用程序创建的Job的信息,当前没有任何Job在运行;
- Stages页面可以查看每个任务的Stage的划分;
- Environment可以查看当前Spark的环境信息;
- Executors可以查看当前Spark环境中的Executors的列表信息。

当前本地模式环境下,只有一个driver,不含其他Executor。
通过pyspark的交互式命令行提交Spark代码来运行。这里以经典的WordCount程序来验证Spark环境。准备一个包含很多单词的文本文件words.txt放到服务器上,目前还没有部署分布式文件系统HDFS,如果有额外的HDFS也可以上传到HDFS上。
Hello Python
Hello Spark You
Hello Python Spark
You know PySpark
编写WordCount的程序代码,实现文件的读取并按单词统计单词在文件中出现的次数。
count = sc.textFile("/home/hadoop/words.txt") \
.flatMap(lambda x: x.split(

最低0.47元/天 解锁文章

1017





