【Spark】No.3 Spark shell

最新推荐文章于 2025-05-07 08:35:32 发布

原创最新推荐文章于 2025-05-07 08:35:32 发布 · 置顶 · 374 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍SparkShell的基本使用方法，包括启动配置、本地与集群模式的区别，以及通过一个经典的单词计数案例展示如何编写与运行Spark程序。

一 Spark shell

1 spark shell 简介

Spark shell 的原理是把每一行 Scala 代码编译成类，最终交由 Spark 执行

2 启动 spark shell （概念）

进入 Spark 安装目录后执行 spark-shell --master master 就可以提交Spark 任务

3 Master 的地址可以有如下几种设置方式

3.1 local[N]

使用 N 条 Worker 线程在本地运行

3.2 spark://host:port

在 Spark standalone 中运行，指定 Spark 集群的 Master 地址，端口默认为 7077

3.3 mesos://host:port

在 Apache Mesos 中运行，指定 Mesos 的地址

3.4 yarn

在 yarn 中运行，yarn 的地址由环境变量 HADOOP_CONF_DIR 来指定

二经典入门案例（单词统计）

1 在 /usr/local/apps 目录下创建一个 worcount.txt 文件输入一些字符串

2 然后进入 spark master （mini-01）节点的 bin 目录下（看清楚不是启动 spark 集群的 sbin目录）

cd spark/bin/

3 启动 spark shell

spark-shell --master local[6]

出现如下图 spark-shell 启动成功

解释：

图中圈起来的 sc 是spark-shell 主动给我们创建的 sparkContext 如果在IDEA 中写代码我们需要自己创建 sc

spark-shell --master local[6] 这里的6 是指定了6条线程来运行我们的spark程序

4 运行第一个Spark 程序

上图最后的 Array 已经将结果收集起来我们看到对之前输入到 wordCount.txt 中的字符串进行了数量统计

代码解释

1 读取 wordCount.txt文件中的内容（类似于Java的IO流）

var rdd1 = sc.textFile("file:///usr/local/apps/wordCount.txt")

2 对读取内容根据空格进行切分将其展平 flatMap是 spark rdd中的算子

val rdd2 = rdd1.flatMap(item=>item.split(" "))

3 这里的item最终成为一个元组即键值对类型 map是spark rdd中的算子

val rdd3 = rdd2.map(item=>(item,1))

4 reduceByKey 是针对 KV 型数据来进行计算 reduceByKey是spark rdd中的算子

val rdd4 = rdd3.reduceByKey((curr,agg)=>curr+agg)

5 收集结果 collect是spark rdd中的算子

rdd4.collect()

以上感谢！

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。