【大数据笔记】- Spark Shell

原创已于 2022-03-01 18:25:40 修改 · 645 阅读

CC 4.0 BY-SA版权

文章标签：

于 2021-12-21 11:21:11 首次发布

15 篇文章

订阅专栏

本文介绍如何使用SparkShell进行数据处理实战，包括创建Dataset、数据统计、过滤、复杂计算及缓存等基本操作。

本文默认了你已经有了hadoop+Spark环境，且有一台linux客户机，配置好了各种环境变量，可执行Spark命令的。

以上环境有没完成的，自行去百度完成。

word_test.txt（内容随意，我放的是英文诗），上传到hdfs，/tmp/hubg/目录下

hadoop fs -put word_test.txt /tmp/hubg/word_test.txt

看一下文件内容：

hadoop fs -cat /tmp/hubg/word_test.txt

spark-shell

val textFile = spark.read.textFile("/tmp/hubg/word_test.txt")

textFile.count() // Number of items in this Dataset

textFile.first() // First item in this Dataset

val linesWithSpark = textFile.filter(line => line.contains("zoo"))
linesWithSpark.count()

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

第一个 map 操作创建一个新的 Dataset，将一行数据 map 为一个整型值。在 Dataset 上调用 reduce 来找到最大的行计数。参数 map 与 reduce 是 Scala 函数（closures），并且可以使用 Scala/Java 库的任何语言特性。

import java.lang.Math
textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))

val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()
wordCounts.collect()

linesWithSpark.cache()
linesWithSpark.count()

就写这些了，更多用法大家看官网吧，如pyspark命令行，还有Spark API 来创建独立的应用程序Scala（SBT），Java（Maven）和 Python 等例子：