Spark入门

最新推荐文章于 2025-04-29 17:47:41 发布

zhangbaqing

最新推荐文章于 2025-04-29 17:47:41 发布

阅读量1.4k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/Eric_qiushui/article/details/117981358

版权

spark 专栏收录该内容

2 篇文章

订阅专栏

文章目录

一、名词解释

1. RDD

弹性分布式数据集(resilient distributed dataset, 简称RDD)

在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。

二、Spark核心概念

每个Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种并行操作。

驱动器程序通过一个SparkContext对象来访问Spark。

三、RDD基础

1. 转化操作和行动操作的区别

转化操作和行动操作的区别在于Spark计算RDD的方式不同。

虽然可以在任何时候定义新的RDD，但Spark只会惰性计算这些RDD。只有他们第一次在一个行动操作中用到时，才会真正计算。

Spark了解了完整的转化操作链之后，就可以只计算求结果时真正需要的数据。

RDD的转化操作是返回一个新的RDD的操作；而行动操作则是向驱动程序返回结果，或把结果写入外部系统的操作，会触发实际的计算。

如果对于一个特定的函数是属于转化操作还是行动操作感到困惑，可以看看它的返回值类型，转化操作返回的是RDD，而行动操作返回的是其他的数据类型。

2. 创建RDD

Spark提供了两种创建RDD的方式：读取外部数据集，以及在驱动程序中对一个集合进行并行化。

3. 转化操作

通过转化操作，从已有的RDD中派生出新的RDD，Spark会使用谱系图来记录这些不同RDD之间的依赖关系。

Spark需要用这些信息来按需计算每个RDD，也可以依靠谱系图，在持久化的RDD丢失部分数据时恢复所丢失的数据。

4. 行动操作

由于行动操作需要生成实际的输出，他们会强制执行那些求值必须用到的RDD的转化操作。

5. 惰性求值

RDD的转化操作都是惰性求值的。这意味着在被调用行动操作之前，Spark不会开始计算。

6. 常见的转化操作

序号	函数	作用
1	map	接收一个函数，把这个函数用于`RDD`中的每个元素，将函数的返回结果作为结果`RDD`中对应元素的值。
2	filter	接收一个函数，并将`RDD`中满足该函数的元素放入新的`RDD`中返回。
3	flatMap	将结果拍平

例一：Scala版计算RDD中各值的平方

val input = sc.parallelize(List(1, 2, 3, 4))
val result = input.map(x => x * x)
println(result.collect().mkString(","))

在这里插入图片描述

我们可以使用Spark自带的Scala交互式窗口：

# 切换到spark目录
cd spark-3.0.0-bin-hadoop2.7/
# 打开scala版 spark shell
./bin/spark-shell

看到以下输出时，就已经进入spark shell啦

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://*.*.*.*:*
Spark context available as 'sc' (master = local[*], app id = local-1623326674668).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_41)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

我设置了log4j的日志输出级别为ERROR，所以没有INFO或者WARN级别的日志。

设置方式很简单，将conf/目录下的log4j.properties.template文件，拷贝一份，重命名为log4j.properties，打开log4j.properties，将log4j.rootCategory变量设置为ERROR, console，即可。

例二：Scala中的flatMap()将行数据切分为单词

val lines = sc.parallelize(List("hello world", "hi"))
val words = lines.flatMap(_.split(" "))
words.foreach(println)

7. 常见的行动操作

函数名	作用	示例
collect()	返回RDD中的所有元素	rdd.collect()
count()	RDD中的元素个数	rdd.count()
countByValue()	各元素在RDD中出现的次数	rdd.countByValue()
take(num)	从RDD中返回num个元素	rdd.take(2)
top(num)	从RDD中返回最前面的num个元素	rdd.top(2)
reduce(func)	并行整合RDD中所有数据	rdd.reduce((x, y) => x + y)
foreach(func)	对RDD中的每个元素使用给定的函数	rdd.foreach(println)