Spark，从入门到精通，专注于核心原理与深度应用的专业笔记

Spark核心技术与应用

最新推荐文章于 2025-10-29 14:57:55 发布

原创最新推荐文章于 2025-10-29 14:57:55 发布 · 210 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #学习 #java #后端

Spark是UCBerkeleyAMPlab开源的通用并行框架，适用于大规模数据处理。本书全面介绍了Spark的基础知识、实战案例及高级应用，包括编程模型、作业执行、SQL、流处理等内容。

什么是 Spark？

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。
当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 MapReduce 运行在 Yarn上，存储在 HDFS 上的一个大数据批处理程序；也可能是指使用包含 Spark sql、Spark streaming 等子项目；甚至 Tachyon、Mesos 等大数据处理的统一平台，或者称为 Spark 生态。

发展至今，Spark 已不仅仅是 MapReduce 的替换方案，它已经发出成了一个包含众多子项目的 Spark 生态。
Spark 生态可分为四层：
数据存储层，以 HDFS 、Tachyon 为代表的一些分布式文件存储系统或各种数据库；

资源管理层，Yarn、Mesos 等资源管理器；

数据处理引擎；

应用层，以 Spark 为基础产生的众多项目;Spark SQL 提供 HiveQL（通过 Apache Hive 的 SQL 变体 Hive 查询语言）与Spark 进行交互的 API。每个数据库表被当做一个 RDD，Spark SQL 查询被转换为 Spark 操作。Spark Streaming 对实时数据流进行处理和控制，它允许程序能够像普通 RDD 一样处理实时数据。

今天给大家推荐的这份Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作，不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识，而且还深度讲解了Spark SQL、Spark ML、Spark Streaming等大量内部模块和周边模块的原理与使用。除此之外，还从管理和性能优化的角度对Spark进行了深入探索。