Spark 环境搭建-Local

本文详细介绍了如何在Spark 2.4.5环境下搭建Local模式,包括环境准备、下载安装spark-2.4.5、配置解压、设置权限,以及如何通过实例测试Spark的文本文件和HDFS文件操作。适合开发者进行本地开发和测试。

基情链接

Spark 环境搭建-Local

Spark 环境搭建-Standalone

Spark 环境搭建-Standalone HA

环境搭建-Spark on YARN

模式说明

① 本地模式(Local Mode)

Spark 应用程序中任务 Task 运行在一个本地 JVM Process 进程中,通常开发测试使用

② 集群模式(Cluster Mode)

Spark 应用程序运行在集群上,比如 Hadoop YARN 集群,Spark 自身集群 StandaloneApache Mesos 集群

模式分类说明场景
Spark Standalone 集群模式Spark自带,典型的 Mater/Slaves 模式,使用 Zookeeper 搭建高可用开发测试及生产环境使用
Hadoop YARN 集群模式运行在 yarn 集群之上,由 yarn 负责资源管理,Spark 负责任务调度和计算生产环境使用
Apache Mesos 集群模式运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算国内使用较少

③ 云服务(Cloud)

云服务 Kubernetes 模式

注:本博客使用的是本地模式(Local Mode)

搭建准备

环境准备

云服务器一台

安装包下载

目前 Spark 最新稳定版本,企业中使用较多版本为 2.x 的版本系列

Spark 下载界面:Downloads | Apache Spark

Spark 2.4.5 版本下载:Index of /dist/spark/spark-2.4.5 (apache.org)

本博客安装的版本为:spark-2.4.5-bin-hadoop2.7.tgz

安装及配置

① 解压

# 解压软件包
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz

# 创建软连接
ln -s /opt/server/spark-2.4.5-bin-hadoop2.7 /opt/server/spark

② 配置权限

# 设置用户的权限,当前是什么用户就将权限配置给该用户
chown -R root /opt/server/spark-2.4.5-bin-hadoop2.7
chgrp -R root /opt/server/spark-2.4.5-bin-hadoop2.7

启动及测试

① 启动

cd /opt/server/spark

# 启动
bin/spark-shell

在这里插入图片描述
在这里插入图片描述

② 测试:统计本地文件的行数

# 准备文件
cd /opt/server/
# 编辑文件
vim student.txt
# 增加以下内容
01 Jackson 1990-01-01 男 
02 Harry 1990-12-21 男 
03 Ben 1990-05-20 男 
04 Jack 1990-08-06 男
# 读取本地文件
val textFile = sc.textFile("file:///opt/server/student.txt")
# 计算行数
textFile.count()

在这里插入图片描述
② 测试:统计 HDFS 文件的行数
在这里插入图片描述
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值