Spark本地模式安装

原创

已于 2022-12-13 11:36:24 修改 · 1.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #大数据

于 2022-12-12 16:00:13 首次发布

Spark本地模式安装

Spark软件安装
使用交互式pyspark运行代码
使用spark-submit提交代码

Spark软件安装

Spark本地模式即单机模式，以一个独立的进程，通过其内部的多个线程来模拟整个Spark运行时环境，本地模式只需要在1台服务器上安装Spark即可。本地模式的安装非常简单，只需要将下载的Spark软件安装包解压到目标位置即安装完成。

tar -xzf spark-3.3.1-bin-hadoop3.tgz -C apps

在这里插入图片描述
下图展示了解压后的软件安装目录结构，其中：

bin目录下存放了提交Spark应用程序需要用到的可执行命令，比如pyspark、spark-submit等命令；
conf目录存放的是Spark的配置文件，这里可以配置Spark的部署模式，比如独立集群信息或者Yarn信息；
jars目录存放的是Spark的依赖软件包，Spark各个组件的核心代码都放置在这里，如果需要与第三方框架集成，比如MySQL、Kafka等，需要用到的依赖包也需要添加到jars目录下；
sbin目录下存放的是Spark集群管理相关的可执行命令，比如启动、停止集群的相关命令。

在这里插入图片描述

使用交互式pyspark运行代码

解压完成后，就可以验证安装结果了，由于目前还没有配置相关的环境变量，pyspark不能直接在任意路径执行，需要将工作目录切换到Spark的安装目录，并在此执行相关命令。

cd apps/spark-3.3.1-bin-hadoop3/
bin/pyspark

在这里插入图片描述
从交互式命令行界面，可以了解到一些当前环境的信息：

Spark的版本是：version 3.3.1
Python的版本是：version 3.8.10
Spark Driver Web UI的地址是：http://node1.internal.cloudapp.net:4040
环境实例化了一个SparkContext对象，名为：sc
当前环境的master是：local[*]
环境实例化了一个SparkSession对象，名为：spark

如果访问Spark Driver Web UI地址，可以看到如下的界面。
在这里插入图片描述
其中：

Jobs页面可以查看根据提交运行的Spark应用程序创建的Job的信息，当前没有任何Job在运行；
Stages页面可以查看每个任务的Stage的划分；
Environment可以查看当前Spark的环境信息；
Executors可以查看当前Spark环境中的Executors的列表信息。

在这里插入图片描述
当前本地模式环境下，只有一个driver，不含其他Executor。
通过pyspark的交互式命令行提交Spark代码来运行。这里以经典的WordCount程序来验证Spark环境。准备一个包含很多单词的文本文件words.txt放到服务器上，目前还没有部署分布式文件系统HDFS，如果有额外的HDFS也可以上传到HDFS上。

Hello Python
Hello Spark You
Hello Python Spark
You know PySpark

编写WordCount的程序代码，实现文件的读取并按单词统计单词在文件中出现的次数。

count = sc.textFile("/home/hadoop/words.txt") \
.flatMap(lambda x: x.split(

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wux_labs 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。