19、Apache Spark：大数据编程的利器

pear55

于 2025-11-08 12:22:19 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学实战全景文章标签： Apache Spark 大数据处理 RDD

本文链接：https://blog.youkuaiyun.com/pear55/article/details/154591036

数据科学实战全景专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Apache Spark：大数据编程的利器

1. Spark 简介与优势

Spark 具有诸多显著优势，使其在大数据处理领域广受欢迎：
- 易于部署与学习 ：可部署在个人计算机上，方便用于学习目的。部署后，能利用 CPU 核心进行并行计算。
- 多语言支持 ：支持 Scala（Spark 本身的开发语言）、Java、Python 和 R 四种编程语言，还支持类 SQL 查询。
- 数据格式兼容性强 ：能解析和加载多种数据格式，如纯文本、CSV、JSON、Parquet 等，无论是否压缩（如 gzip）。同时，支持连接关系型数据库（如 MySQL）和 NoSQL 数据库（如 Cassandra）。
- 功能多样 ：能够创建独立应用程序，通过命令行进行交互式查询，还可处理数据流。
- 机器学习库 ：提供基于 Spark 引擎构建的机器学习库，可扩展处理大量数据。

不过，Spark 也存在一些局限性：
- 不适合作为事务性数据库 ：Spark 是批处理框架，不适合插入、更新或删除单条数据，这类操作由 SQL 或 NoSQL 数据库处理更佳。
- 并非专业的集群管理器 ：虽提供独立部署模式（可在无 Hadoop YARN 等集群管理器的集群上设置），但不具备专业集群管理器的所有优势，如资源管理。若在同一集群中部署其他应用程序，专业集群管理器会更实用。

2. Spark 安装与快速上手

安装：截至目前，Spark 最新版本为 2.2.0。安装包可从 http://spark.apache.org/downloads.html 获取，安装文档可查看 http://spark.apache.org/documentation.html 。无需集群即可安装和试用 Spark，当前发行版可部署在基于 Linux 的操作系统、Windows 和 Mac 的个人计算机上。
快速上手 ：安装完成后，最快体验 Spark 的方式是打开终端（命令提示符），切换到 Spark 主目录，然后输入以下命令：

./bin/spark-shell

这将输出一些信息，并进入 scala> 环境，可像在 Scala REPL 中一样输入代码。若选择 Python 语言，可使用 ./bin/pyspark 。在这种情况下，使用 REPL 对数据进行临时查询称为交互式查询，另一种方式是创建独立应用程序。

在终端输出中，有几个重要的元素：
- Web UI ：监控界面，可通过给定 URL（如 http://127.0.0.1:4040 ）访问，能查看 Spark 的环境配置以及正在进行、已完成和失败的计算任务。
- Spark 上下文（sc） ：是访问 Spark 功能的主要入口点。通过它可创建弹性分布式数据集（RDD）、累加器和广播变量。使用 spark - shell （和 pyspark ）命令时会自动创建 sc 变量。
- Master（local [*]） ：表示 Spark 运行的环境，这里指本地计算机。星号指定在本地环境中使用的 CPU 核心数量，可通过 master 选项设置，例如：

spark - shell --master local[4]

在集群环境中，应将 master 设置为集群 URL，如：

spark - shell --master mesos://HOST:PORT

SparkSession（spark） ：是访问 Dataset 和 DataFrame API 的入口点，是处理表格数据的优化方式。

下面是一个使用 Spark 上下文变量加载 README.md 文件的示例：

val rdd = sc.textFile("path/to/README.md")

此代码创建了一个名为 rdd 的弹性分布式数据集实例，引用了本地文件系统中的 README.md 文件。若在 YARN 管理的集群上工作，访问文件的方式相同，只是使用集群 URL（如 hdfs://path/to/file ）。

RDD 可看作简单的 Scala 集合，不同之处在于它抽象了分布式数据并行计算的复杂性。其类定义为 RDD[T] ，其中 T 表示集合中元素的类型（如 String 、 Double 、 Array 等）。以下代码与上述示例等价：

import org.apache.spark.rdd.RDD
val rdd: RDD[String] = sc.textFile("path/to/README.md")

RDD 是不可变结构，提供两种数据操作：转换和动作。

3. RDD 操作示例

转换操作 ：是惰性操作，直到需要时（即调用动作时）才执行。这些操作会创建一个新的 RDD，新 RDD 包含旧 RDD 的所有转换以及创建它的转换。例如 map 和 filter 操作：

val rddWords = rdd.flatMap(_.split(" "))
val rddLongWords = rddWords.filter(_.size > 3)
val rddTuples = rddLongWords.map((_, 1))
val rddWordCounts = rddTuples.reduceByKey(_ + _)

上述代码逐步实现了对 README.md 文件的单词计数：将文件行拆分为单词，过滤出长度大于 3 的单词，将单词映射为元组 (<word>, 1) ，最后按键（元组的第一个元素）进行归约操作。这些转换操作并未实际执行，只是创建了一个执行计划（以有向无环图 DAG 形式呈现的谱系）。谱系是 RDD 弹性的关键，若计算过程中某个节点失败，其他节点可根据谱系重新计算丢失的部分。

代码也可改写为链式调用，使代码更简洁：

val rddWordCounts = rdd
 .flatMap(_.split(" ")) // RDD[String]
 .filter(_.size > 3) // RDD[String]
 .map((_, 1)) // RDD[(String, Int)]
 .reduceByKey(_ + _) // RDD[(String, Int)]

动作操作 ：会触发实际的计算。例如 count 和 first 操作：

rddWordCounts.count // = 240 words
rddWordCounts
 .sortBy(_._2, false)
 .take(5) // (Spark,16), (using,5), (build,4),...

sortBy 是一个转换操作，用于按单词计数（元组的第二个元素）降序排列单词列表。完整的操作列表（包括转换和动作）可在 RDD API 文档中查看。

4. Spark 架构

Spark 是优化集群架构计算的软件。了解集群的硬件概念有助于区分 Spark 的软件概念。
- 硬件架构 ：
- 节点（Worker） ：专门用于数据处理和/或文件存储的计算机，具有一个或多个 CPU 核心、RAM 内存和硬盘（HD）或固态硬盘（SSD）。
- 机架（Rack） ：一组放置在类似塔状结构中的节点。例如，有三个机架，每个机架有五个节点，每个节点都有自己的 CPU、RAM 和 HD。

不同层次的数据访问速度如下：
| 访问层次 | 速度描述 |
| ---- | ---- |
| 1. RAM | 最快（不考虑缓存内存），同一计算机内从 RAM 中获取数据的速度远快于其他层次。 |
| 2. HD | 第二快，但比 RAM 慢 10000 多倍。SSD 性能优于 HD，但仍慢于 RAM。 |
| 3. 同一机架内节点间 | 需要网络流量，速度较慢。 |
| 4. 不同机架内节点间 | 最慢，假设集群仅在本地网络中工作。 |

了解这些有助于优化性能，因为在处理 PB 级数据的查询或机器学习算法时，我们希望等待时间以秒计而非分钟或小时。Spark 之所以快速，是因为它尽可能利用 RAM 访问。

软件架构 ：
- 执行器程序（Executor Programs） ：每个节点一个，负责执行作业（计算）。Spark 中的作业在物理上分布在各个节点，逻辑上由执行器管理。执行器将作业进一步划分为逻辑任务，任务是处理数据的工作单元。
- 驱动程序（Driver Program） ：协调执行器的计算。Spark 上下文和 Spark 会话变量存在于驱动程序中。
- Spark 应用程序（Spark Application） ：指单个驱动程序及其执行器。在集群环境中，驱动程序和执行器运行在不同节点，这意味着驱动程序中创建的变量引用不会在执行器之间共享。在个人计算机上，驱动程序和执行器可能在同一机器上共享资源，甚至可能在同一个 Java 虚拟机（JVM）中运行。

以下是 Spark 软件架构的 mermaid 流程图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A[Driver Program]:::process --> B[Executor Program 1]:::process
    A --> C[Executor Program 2]:::process
    A --> D[Executor Program ...]:::process
    B --> E[Task 1]:::process
    B --> F[Task 2]:::process
    C --> G[Task ...]:::process
    D --> H[Task ...]:::process

5. 分布式计算的影响

使用 Spark 进行分布式计算会带来一些影响：
- 不必要的重新计算 ：某些转换操作若不进行持久化，可能会被不必要地重新计算。例如，计算 rddWordCounts 的 count 和 take(5) 操作时，会两次计算整个谱系。为避免这种情况，可调用 persist 方法将谱系转换结果持久化到内存中：

rddWordCounts.persist()

若要取消持久化，可调用 unpersist() 。
- 命令行为差异 ：由于 Spark 隐藏了底层架构的复杂性，一些命令在分布式环境中的行为与在个人计算机上不同。例如 println 命令：

rddWordCounts
 .foreach(line => println(s"Words: ${line.size}")

在简单的 Scala 集合（如 List）上运行此代码会在终端输出所有 240 个元组，但在 RDD 中， println 命令在不同的执行器和节点上运行，不会在驱动程序（即命令输入的终端）上输出结果，而是输出到每个执行器的标准输出。此外，读取文件或目录时，不仅驱动程序需要访问给定路径，节点也需要访问该路径，例如共享网络驱动器或 Amazon S3 存储桶。
- 闭包（Closure） ：当对 RDD 调用动作操作时，驱动程序中声明并在 RDD 操作中使用的变量和方法会被封装在 JAR 文件中发送到执行器。这意味着驱动程序中声明的变量与发送到执行器的变量不同，初始值相同，但更新操作会在不同变量上进行。例如：

var count = 0
rddWordCounts.foreach(_ => count += 1)
count // = 0

上述代码中，驱动程序中声明的 count 变量不会改变，发送到执行器的 count 变量会更新，但我们无法看到。若需要跨执行器的共享变量，可使用累加器和广播变量。以下代码可得到预期结果：

val accum = sc.longAccumulator
rddWordCounts.foreach(_ => accum.add(1))
accum.value // = 240

洗牌（Shuffle） ：在单词计数示例中，执行 reduceByKey 操作时，同一个单词的实例可能存在于多个节点。为执行此操作，Spark 需要先在每个节点计算单词计数，然后通过移动数据将部分结果汇总，计算所有节点的总单词计数。数据移动过程称为洗牌， reduceByKey 等转换操作称为洗牌操作。

综上所述，Spark 是一个强大的大数据处理框架，但在使用时需要了解其优势、局限性以及分布式计算带来的影响，以便更好地利用它进行数据处理和分析。

Apache Spark：大数据编程的利器

6. RDD 深入理解

RDD 作为 Spark 实现可靠计算的核心抽象，具有诸多特性。其分布式特性使数据被划分到多个物理或虚拟节点上，而弹性则保证了在节点故障时能恢复计算。

RDD 的分区数量默认由 Spark 根据文件块大小决定。在本地文件系统中，文件块大小为 32MB；在 YARN 管理的集群中，文件块大小为 128MB。小文件（如 3.8K 的 README.md ）的最小分区数为 2。

RDD 的不可变特性是函数式编程和可靠并行编程的关键。它就像 Scala 的 List 一样，一旦创建就不能修改，只能通过转换操作生成新的 RDD。

以下是 RDD 操作的总结表格：
| 操作类型 | 特点 | 示例 |
| ---- | ---- | ---- |
| 转换操作 | 惰性操作，创建新 RDD，包含旧 RDD 转换及自身转换 | map 、 filter 、 flatMap 、 reduceByKey |
| 动作操作 | 触发实际计算，可能需要汇总部分结果到驱动程序 | count 、 first 、 sortBy 、 take |

7. 实际应用中的注意事项

在实际使用 Spark 进行大数据处理时，除了前面提到的分布式计算影响，还有一些其他注意事项。

资源管理 ：在集群环境中，合理分配资源至关重要。可以通过设置 master 选项来指定使用的 CPU 核心数量，避免资源浪费或不足。例如：

spark - shell --master local[4]

同时，要注意不同操作对资源的需求，如洗牌操作会消耗大量网络带宽和计算资源。

数据倾斜 ：在进行分组和聚合操作（如 reduceByKey ）时，可能会出现数据倾斜问题，即某些键的数据量远大于其他键。这会导致部分节点负载过重，影响整体性能。可以通过预聚合、加盐等方法来缓解数据倾斜。
代码优化 ：尽量使用链式调用和惰性操作，减少不必要的中间结果存储。例如，将多个转换操作连续调用，避免创建过多临时 RDD。

8. 结合实际案例的操作流程

下面以一个简单的日志分析案例为例，展示 Spark 的操作流程。

假设我们有一个包含用户访问日志的文本文件，需要统计每个用户的访问次数。

加载数据 ：

val rdd = sc.textFile("path/to/logs.txt")

数据转换 ：

val userRdd = rdd.map(line => line.split(",")(0)) // 假设日志格式为 "user,action,timestamp"
val userCountRdd = userRdd.map(user => (user, 1)).reduceByKey(_ + _)

执行动作操作 ：

userCountRdd.collect().foreach(println) // 收集结果并打印

整个操作流程的 mermaid 流程图如下：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A[加载数据]:::process --> B[数据转换]:::process
    B --> C[执行动作操作]:::process
    C --> D[输出结果]:::process

9. 总结与展望

Spark 以其强大的功能和灵活的特性，成为大数据处理领域的重要工具。它支持多语言编程，能处理多种数据格式，提供了丰富的操作接口，并且具有良好的性能和容错能力。

在未来，随着大数据技术的不断发展，Spark 可能会在以下方面进一步优化和拓展：
- 与更多数据源和存储系统集成 ：支持更多类型的数据库和存储系统，方便用户处理多样化的数据。
- 增强机器学习和深度学习能力 ：提供更丰富的机器学习算法和工具，支持更复杂的深度学习模型训练。
- 优化集群管理和资源调度 ：提高集群的资源利用率和任务调度效率，降低运维成本。

总之，Spark 在大数据领域有着广阔的应用前景，值得我们深入学习和研究，以更好地应对日益增长的大数据挑战。