大数据管理与分析第七章 spark

原创已于 2022-07-25 10:07:15 修改 · 145 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #hadoop

于 2022-06-24 16:20:30 首次发布

大数据管理与分析专栏收录该内容

11 篇文章

订阅专栏

本文探讨了MapReduce的不足，如不适合低延迟处理和数据共享效率低，以及Spark如何通过内存计算提升性能。Spark的核心包括RDD、Master/Worker节点和Executor。RDD是可容错的内存抽象，支持转换和动作操作。文章还介绍了RDD的两种容错机制：Lineage和检查点。最后，讲解了基于MapReduce的K-means聚类和PageRank算法实现。

为什么需要spark

MapReduce的缺陷

最初设计用于高吞吐量的批处理，不擅长低延迟处理
需要将数据存储到HDFS，迭代计算中数据共享效率低
系统设计没有充分利用内存，很难实现高性能
MapReduce不表达复杂的计算问题，如图形计算、迭代计算

Spark基于内存计算思想提高计算性能

RDD：基于内存的弹性分布式数据集，通过对RDD的一系列操作完成计算任务可以大大提高性能
一组RDD形成可执行的有向无环图DAG

Spark 基本架构和组件

在这里插入图片描述

Master node：集群部署时的概念，是整个集群的控制器，负责整个集群的正常运行，管理Worker node
Work node：是计算节点，接收主节点命令与进行状态汇报
Executors：每个Worker上有一个Executor，负责完成Task程序的执行

Spark编程模型

RDD 弹性分布式数据集：一种分布式的内存抽象，允许大型集群上执行基于内存的计算
RDD 还保持了容错特性
RDD只读，可分区，这个数据机全部或部分可以缓存在内存中，在多次计算间重用。

RDD支持两种操作类型;

转换：惰性操作，使用这种方法时，只是定义了一个新的RDD，而并不是马上计算新的RDD内部的值
动作：立即计算这个RDD的值，并返回结果给程序，或者将结果写入到外存中

两种容错方式

Lineage（世系系统、依赖系统）：RDD提供一种基于粗粒度变换的接口，这使得RDD可以通过记录RDD之间的变换，而不需要存储实际的数据，就可以完成数据的恢复，使得Spark具有高效的容错性
检查点：对于很长Lineage的RDD，通过lineage 来恢复耗时长，在对包含宽依赖的长世系的RDD设置检查点操作非常有必要