什么是 Spark?
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。
当我们在谈 Spark 的时候可能是指一个 Spark 应用程序,替代 MapReduce 运行在 Yarn上,存储在 HDFS 上的一个大数据批处理程序;也可能是指使用包含 Spark sql、Spark streaming 等子项目;甚至 Tachyon、Mesos 等大数据处理的统一平台,或者称为 Spark 生态。
发展至今,Spark 已不仅仅是 MapReduce 的替换方案,它已经发出成了一个包含众多子项目的 Spark 生态。
Spark 生态可分为四层:
数据存储层,以 HDFS 、Tachyon 为代表的一些分布式文件存储系统或各种数据库;
资源管理层,Yarn、Mesos 等资源管理器;
数据处理引擎;
应用层,以 Spark 为基础产生的众多项目;Spark SQL 提供 HiveQL(通过 Apache Hive 的 SQL 变体 Hive 查询语言)与Spark 进行交互的 API。每个数据库表被当做一个 RDD,Spark SQL 查询被转换为 Spark 操作。Spark Streaming 对实时数据流进行处理和控制,它允许程序能够像普通 RDD 一样处理实时数据。
今天给大家推荐的这份Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作,不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了Spark SQL、Spark ML、Spark Streaming等大量内部模块和周边模块的原理与使用。除此之外,还从管理和性能优化的角度对Spark进行了深入探索。
本书特色
从适合读者阅读和掌握知识的结构安排上讲,分为“基础篇"、“实战篇”、 “高级篇” 、“扩展篇”四个维度进行编写,从基础引出实战,从实战过渡高级,从高级进行扩展,层层推进,便于读者展开讨论,深入理解分析,并提供相应的解决方案。本书的案例都是实际业务中的抽象,都经过具体的实践。
本书分为四篇,共计20章内容
- 基础篇(第1 ~ 10章):详细说明什么是Spark、Spark 的重要扩展、Spark 的部署和运行、Spark程序开发、Spark 编程模型以及Spark 作业执行解析。


- 实战篇(第11 ~ 14章):重点讲解Spark SQL与DataFrame、Spark Streaming、Spark MLlib与Spark ML、GraphX、SparkR,以及基于以上内容实现大数据分析、系统资源统计、LR模型、二级邻居关系图获取等方面的实战案例。


- 高级篇(第15~ 18章):深入讲解Spark调度管理、存储管理、监控管理、性能调优。

- 扩展篇(第19 ~ 20章):介绍Jobserver和Tachyon在Spark上的使用情况。

其中,第二部分实战篇为本书重点,如果你没有充足的时间完成全书的阅读,可以选择性地进行重点章节的阅读。如果你是一位有着一定经验的资深人员, 本书有助于你加深基础概念和实战应用的理解。如果你是一名初学者, 请在从基础篇知识开始阅读。

阅读对象:
(1)对大数据非常感兴趣的读者
(2)从事大数据开发的人员
(3)从事大数据运维的人员
(4)数据科学家和算法研究者
Spark核心技术与应用
Spark是UCBerkeleyAMPlab开源的通用并行框架,适用于大规模数据处理。本书全面介绍了Spark的基础知识、实战案例及高级应用,包括编程模型、作业执行、SQL、流处理等内容。
1307

被折叠的 条评论
为什么被折叠?



