《Spark The Definitive Guide》Spark 权威指南学习计划

本书为OReilly出版的《Spark:The Definitive Guide》精读笔记,涵盖Spark2.0改进、结构化API操作、Structured Streaming、MLlib机器学习库等内容。作者计划详细解析从大数据处理到机器学习的全面知识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本书出自OReilly的《Spark: The Definitive Guide Big Data Processing Made Simple》,由Matei Zaharia, Bill Chambers两位大佬所写,是2018年2月的第一版(我也不清楚有没有最新版,搜也没搜到第二版)

参考本书主页介绍,着眼于Spark 2.0的改进,探索Spark结构化API的基本操作和常用功能,以及用于构建端到端流应用程序的新型高级API Structured Streaming。学习监控,调优和调试Spark的基础知识,并探索机器学习技术和场景,以便使用Spark的可扩展机器学习库MLlib。

  • 轻松了解大数据和Spark
  • 通过工作示例了解DataFrames,SQL和Datasets-Spark的核心API
  • 深入了解Spark的低级API,RDD以及SQL和DataFrame的执行
  • 了解Spark如何在群集上运行
  • 调试,监视和调整Spark集群和应用程序
  • 了解结构流,Spark的流处理引擎的强大功能
  • 了解如何将MLlib应用于各种问题,包括分类或推荐

OReilly它家的书都是把代码和案例放在github上的,这本书也不例外,见此databricks/Spark-The-Definitive-Guid

实际上,这并非我初学Spark了,之前也有所涉猎,但想着能够深入学习,便计划写下文章加深自己理解,以及分享知识。

本书并非是对原作的翻译,好像目前国内也没有出版社翻译了这本书,仅仅是叙述自己读书的心得、想法,并结合自己之前所学加以新内容。

计划

  • 计划第1、2、3章
    • 计划作废,和大多书一样前面内容都是总览性内容,实际性的东西也很杂,所以先放置待后期补上吧
  • 计划4、5、6章吧,(~5.26)
    • 已完成4、5,预计可达成
  • 机器学习相关第24~31不打算看

目录

书籍分为以下七大部分:

  • 大数据和Spark概述
    • Chapter 1 to 2:了解Apache Spark
    • Chapter 3:了解Spark的工具集
  • 结构化API——DataFrames, SQL, and Datasets
  • 底层API
    • Chapter 12:弹性分布式数据集(RDDs)
    • Chapter 13:高级的 RDDs
    • Chapter 14:分布式共享变量
  • 生产上的应用
    • Chapter 15:Spark 如何在集群上运行
    • Chapter 16:开发 Spark 应用程序
    • Chapter 17:部署 Spark
    • Chapter 18:监控和调试
    • Chapter 19:性能调优
  • Streaming流
    • Chapter 20:Stream 流处理基础
    • Chapter 21:结构化Streaming流的基础
    • Chapter 22:事件时间(Event-time)和状态处理
    • Chapter 23:生产中的结构化流处理
  • 高级数据分析和机器学习
    • Chapter 24:高级分析和机器学习预览
    • Chapter 25:预处理和特征工程
    • Chapter 26:分类
    • Chapter 27:回归
    • Chapter 28:Recommendation 推荐
    • Chapter 29:非监督性学习
    • Chapter 30:图分析
    • Chapter 31:深度学习
  • Spark 生态
    • Chapter 32:语言细节: Python (PySpark)和 r (SparkR 和 sparklyr)
    • Chapter 33:生态和社区

收录于此:josonle/Spark-The-Definitive-Guide-Learning,优先上传到本仓库


更多推荐: Coding Now

学习记录的一些笔记,以及所看得一些电子书eBooks、视频资源和平常收纳的一些自己认为比较好的博客、网站、工具。涉及大数据几大组件、Python机器学习和数据分析、Linux、操作系统、算法、网络等

转载于:https://juejin.im/post/5cd3dc06e51d456e2d69a83e

Welcome to this first edition of Spark: The Definitive Guide! We are excited to bring you the most complete resource on Apache Spark today, focusing especially on the new generation of Spark APIs introduced in Spark 2.0. Apache Spark is currently one of the most popular systems for large-scale data processing, with APIs in multiple programming languages and a wealth of built-in and third-party libraries. Although the project has existed for multiple years—first as a research project started at UC Berkeley in 2009, then at the Apache Software Foundation since 2013—the open source community is continuing to build more powerful APIs and high-level libraries over Spark, so there is still a lot to write about the project. We decided to write this book for two reasons. First, we wanted to present the most comprehensive book on Apache Spark, covering all of the fundamental use cases with easy-to-run examples. Second, we especially wanted to explore the higher-level “structured” APIs that were finalized in Apache Spark 2.0—namely DataFrames, Datasets, Spark SQL, and Structured Streaming—which older books on Spark don’t always include. We hope this book gives you a solid foundation to write modern Apache Spark applications using all the available tools in the project. In this preface, we’ll tell you a little bit about our background, and explain who this book is for and how we have organized the material. We also want to thank the numerous people who helped edit and review this book, without whom it would not have been possible.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值