4.在spark-shell中运行代码（华为云学习笔记，Spark编程基础，大数据）

Spark Shell交互式编程实践：华为云大数据环境

最新推荐文章于 2025-11-28 14:30:30 发布

原创

最新推荐文章于 2025-11-28 14:30:30 发布 · 2.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#spark #big data #华为云

本文介绍了如何在华为云环境下启动和使用Spark Shell进行交互式编程。内容包括Spark Shell的启动命令、运行模式选择以及如何在Shell中执行简单的Scala语句和文件操作，如统计文件行数。实验结论强调了掌握的知识点和解决的问题。

在spark-shell中运行代码
① 能够使用正确的方式启动spark-shell；
② 能够在spark-shell中进行交互式编程。
实验原理
-> spark-shell
spark-shell提供了简单的方式来学习 API，并且提供了交互的方式来分析数据。你可以输入一条语句，spark-shell会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），它为我们提供了交互式执行环境，表达式计算完成以后就会立即输出结果，而不必等到整个程序运行完毕，因此可以即时查看中间结果并对程序进行修改，这样可以在很大程度上提升程序开发效率。spark-shell支持Scala和Python，由于Spark框架本身就是使用Scala语言开发的，所以，使用spark-shell命令会默认进入Scala的交互式执行环境。如果要进入Python的交互式执行环境，则需要执行pyspark命令。
-> spark-shell启动命令含义
在Linux终端中运行spark-shell命令，就可以启动进入spark-shell交互式执行环境。spark-shell命令及其常用的参数如下：
$ ./bin/spark-shell --master
Spark的运行模式取决于传递给SparkContext的的值。
可以是下表中的任一种形式。
（1）local。使用一个Worker线程本地化运行Spark（完全不并行）；
（2）local[]。使用与逻辑CPU个数相同数量的线程来本地化运行Spark（“逻辑CPU个数”等于“物理CPU个数”乘以“每个物理CPU包含的CPU核数”）；（3）local[K]。使用K个Worker线程本地化运行Spark（理想情况下，K应该根据运行机器的CPU核数来确定）；
（4）spark://HOST:PORT。Spark采用独立（standalone）集群模式，连接到指定的Spark集群，默认端口是7077；

最低0.47元/天解锁文章