Ubuntu的SPARK安装与应用

最新推荐文章于 2025-09-12 16:22:37 发布

原创最新推荐文章于 2025-09-12 16:22:37 发布 · 1.1k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #hadoop #分布式 #spark

本文详细介绍了如何在虚拟机上安装Spark，包括上传安装包，解压，修改文件夹名以及配置环境变量。接着，文章阐述了如何启动Spark，并展示了启动成功的标志。在编程部分，文章讨论了RDD的创建，如从本地加载数据和通过并行集合创建，以及转换和行动操作，如filter和map函数的应用。

一、安装

1.将spark安装包使用sftp从本地上传到虚拟机的spark文件夹中去

在虚拟机对应的文件夹下ls一下，确认有没有传过去

解压到原目录，输入语句tar -xvf 压缩包名字，ls一下，查看解压后的文件夹，我这里的spark-3.3.2-bin-hadoop2文件夹就是解压完成的文件夹。

修改文件夹名字：

配置环境变量，输入vim /etc/profile，键入i进入编辑模式,添加如下两行

配置完成后esc退出编辑模式，然后输入：wq退出配置，输入source /etc/profile保存并运行配置结果

进入hadoop/sbin目录，启动spark，出现这样的结果就是启动成功

2.接下来开始RDD编程

(1)RDD创建

从本地加载数据创建RDD

通过并行集合创建RDD

RDD操作

转换操作

filter(func)：筛选出满足函数func的元素，并返回一个新的数据集

map(func)操作将每个元素传递到函数func中，并将结果返回为一个新的数据集

map(func)

flatMap(func)

3.行动操作

持久化操作

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。