跟我一起学Spark之——《Spark快速大数据分析》pdf版下载

本书全面介绍了Spark数据分析技术,从基础知识到高级应用,涵盖了下载安装、RDD编程、键值对操作、数据读写、集群部署、性能调优、SQL查询、流处理及机器学习等内容,为读者提供了系统的学习路径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

链接:https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g 
提取码:ib01

国庆第四天,去逛了半天的王府井书店,五层出电梯右边最里面,倒数第三排《数据结构》,找到了一本很不错的书《Spark快速大数据分析》,试读了下,我很喜欢,也很适合我,遂买之。


第1章 Spark数据分析导论 1 
第2章 Spark下载与入门 7 
第3章 RDD编程 21 
第4章 键值对操作 41 
第5章 数据读取与保存 63 
第6章 Spark编程进阶 87 
第7章 在集群上运行Spark 101 
第8章 Spark调优与调试 123 
第9章 Spark SQL 141 
第10章 Spark Streaming 161 
第11章 基于MLlib的机器学习 187 
作者简介 210 
封面介绍 210

DOI:10.16525/j.cnki.14-1362/n.2019.10.31 总第 184 期 2019 年第10 期 Total of 184 No.10, 2019 大数据 收稿日期: 2019-08-16 第一作者简介: 林海 (1989—) , 男, 本科, 研究方向为飞行 教育。 基于大数据下的 Spark 快速大数据分析 林 海, 王 强, 李英震 (空军航空大初级飞行训练基地二团, 黑龙江 哈尔滨 150100) 摘 要: 在数据大爆炸的时代, 随着数据量的激增, 如何更快速地处理、 使用这些规模大、 复杂度高的数据成为 迫在眉睫的问题。阐述了 Spark 的五大组件,研究了 Spark 数据处理应用和运行架构。Spark 通过优化传统的 MapReduce 模型来满足之前 HDFS 以及 MapReduce 无法解决的问题, 大大提高了效率, 为处理流式数据以及 其他需求提供了捷径。 关键词: 大数据; 数据分析; 计算; 数据处理 中图分类号: TP311 文献标识码: A 文章编号: 2095-0748 (2019) 10-0075-02 现代工业经济和信息化 Modern IndustrialEconomy and Informationization 引言 随着科技术和社会经济的高速发展, 我们已经 处于一个数据大爆炸的时代, 手机、 ipad 以及其他的 物联网设备每分每秒都会产生大量的全新数据, 这 些数据不仅数量大,而且更加复杂,来源也越来越 广。 据科家预测, 到 2020 年, 将会有 600 多亿台的 互联网设备产生 Zeta 级的数据, 所以如何更加合理 快速地处理并且使用这些规模大、复杂度高的数据 成为我们迫在眉睫需要解决的问题。 随着数据量的快速增长,以及一些公司对数据 进行实时计算和实时处理的要求,传统的 MapRe- duce 模型已经无法满足这些要求, 而且更加重要的是 MapReduce 在进行 Shuffle 时会产生大量的 I/O, 使 得效率变低。 Spark 的出现扩展了传统的 MapReduce 模型, 不但能提供更多更加高效的计算模型, 还能够 适用于多种不同的分布式平台场景上。同时 Spark 还可以让使用者们简单而低消耗地将各种处理流程 整合到一起,这样既满足了对实时计算以及实时处 理的要求, 还减轻了对各种平台分别管理的负担[1]。 1 Spark 的五大组件 在 spark Core 中实现了 Spark 的一些基础的功 能, 例如进行内存的管理、 进行错误的恢复、 对任务 的调度、 存储系统进行交互等功能。 它还包含了对 弹性分布式数据集的 API 定义。 Spark SQL 是被用来对结构化数据进行操作 的程序包, 它支持多种数据源, 例如 Hive 表、 JSON、 Parquet 等, 还可以使用 HQL 来进行数据的查询。 Spark Streaming 能够对实时的数据进行流式计 算。 它具有准时的特点, 同时提供离散化流数据的高 级抽象概念, 以此来表示连续的数据流。 离散流是可 以来自 Flume、 Kafka 等输入源的输入数据流来创 建, 进行批处理, 时间一般是秒级。 MLib 是 Spark 提供的一个常见的机器习功能 的程序库, 它提供了许许多多的机器习算法, 这些 算法中包括了回归、 聚类、 分类、 协同过滤、 数据导 入、 模型评估等功能。 Graphx 是能够进行并行操作的图计算,可以用 来操作图的程序库。 2 Spark 数据处理应用 众所周知因为 MapReduce 在交互计算以及迭 代计算任务上的效率比较低,所以 Spark 出现了, Spark 的出现使得交互式查询以及迭代计算效率大 大增加,不但如此它还支持高效的容错机制和内存 式存储。Spark 不仅仅能够将 HDFS (分布式文件系 统) 上面的文件读取为分布式数据集, 还支持本地文 件、 Hive、 HBase 等。 每一个 Spark 应用都会由一个驱动 器程序 (Driver Program) 来发起集群上的并行操作[2]。 3 Spark 的运行架构 在 HDFS 的环境下, Spark 采取的是 Master/Slave, 即主从架构,也就是由一个主节点来负责中央的协 调, 调度其他每个分布式节点, 其中负责中央协调的 节点就称为驱动器节点,也就是我们所说的 Driver 第 9 卷 现代工业经济和信息化 xdgyjjxxhx@163.com (上接第 74 页) Application of Big Data in Human Resource Management Wang Xiaoli (Shanxi Provincial Pers
本章将详细介绍搭建Spark的常用方法。Spark的单机便于测试,同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群,使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署,本章将介绍在EC2(基本环境和EC2MR)上的部署。如果你的机器或者集群中已经部署了Spark,可以跳过本章直接开始使用Spark编程。 不管如何部署Spark,首先得从获得Spark的一个本,截止到写本书时,Spark的最新本为0.7。对于熟悉github的程序员,则可以从git://github.com/mesos/spark.git直接复制Spark项目。Spark提供基本源码压缩包,同时也提供已经编译好的压缩包。为了和Hadoop分布式文件系统(HDFS)交互,需要在编译源码前设定相应的集群中所使用的Hadoop本。对于0.7本的Spark,已经编译好的压缩包依赖的是1.0.4本的Hadoop。如果想更深入地Spark,推荐自编译基本源码,因为这样可以灵活地选择HDFS的本,如果想对Spark源码有所贡献,比如提交补丁,自己编译源码是必须的。你需要安装合适本的Scala和之对应的JDK本。对于Spark的0.7.1本,需要Scala 2.9.2或者更高的Scala 2.9本(如2.9.3)。在写本书时,Linux发行Ubuntu的LTS本已经有Scala2.9.1,除此之外,最近的稳定本已经有2.9.2。Fedora18已经有2.9.2。软件包的更新信息可以查看到。Scala官网上的最新在。选择Spark支持的Scala本十分重要,Spark对Scala的本很敏感。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值