spark第二篇--基本原理

最新推荐文章于 2022-10-23 17:24:14 发布

转载最新推荐文章于 2022-10-23 17:24:14 发布 · 8.9k 阅读

spark 专栏收录该内容

2 篇文章

订阅专栏

Spark 是一个专为低延迟迭代作业和交互式使用设计的分布式计算框架。它通过核心概念 RDD（可分区的分布式数据集）、内存缓存和 Lineage（血统关系）机制，实现数据重用和鲁棒性，显著提高数据加载和计算效率。适用于需要多次操作特定数据集的应用场合，如实时数据分析、机器学习模型训练等。

==是什么 ==

目标Scope（解决什么问题）

在大规模的特定数据集上的迭代运算或重复查询检索

官方定义

aMapReduce-like cluster computing framework designed for low-latency iterativejobs and interactive use from an interpreter

个人理解

首先，MapReduce-like是说架构上和多数分布式计算框架类似，Spark有分配任务的主节点（Driver）和执行计算的工作节点（Worker）

其次，Low-latency基本上应该是源于Worker进程较长的生命周期，可以在一个Job过程中长驻内存执行Task，减少额外的开销

然后对interative重复迭代类查询运算的高效支持，是Spark的出发点了。最后它提供了一个基于Scala的Shell方便交互式的解释执行任务

==如何实现 ==

核心思路，架构

RDD：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。

Lineage：利用内存加快数据加载在众多的其它的In-Memory类数据库或Cache类系统中也有实现，Spark的主要区别在于它处理分布式运算环境下的数据容错性（节点实效/数据丢失）问题时采用的方案。为了保证RDD中数据的鲁棒性，RDD数据集通过所谓的血统关系(Lineage)记住了它是如何从其它RDD中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者LOG机制，RDD的Lineage记录的是粗颗粒度的特定数据变换（Transformation）操作（filter, map, join etc.)行为。当这个RDD的部分分区数据丢失时，它可以通过Lineage获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了Spark的运用场合，但同时相比细颗粒度的数据模型，也带来了性能的提升。

总之，Spark的核心思路就是将数据集缓存在内存中加快读取速度，同时用lineage关联的RDD以较小的性能代价保证数据的鲁棒性。

适用领域

正如其目标scope，Spark适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。

细节

使用内存缓存数据集快在哪里？主要是几个方面：首先是磁盘IO，其次数据的序列化和反序列化的开销也节省了，最后相对其它内存数据库系统，粗颗粒度的内存管理机制减小了数据容错的代价（如典型的数据备份复制机制）

==相关项目 ==

上下游项目

Discretized Streams (Spark streaming)

构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据。个人理解构建在Spark上的原因大概是因为Spark的低延迟执行引擎（100ms+）勉强可以用于实时处理，而Spark的核心理念数据重用和流式数据处理本身并没有直接的交集，相反个人感觉流式数据的无穷连续性的特性一定程度上和数据重用是冲突的。相比基于Record的其它处理框架（如Storm），RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Shark ( Hive on Spark)

Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口，为了最大程度的保持和Hive的兼容性，Shark使用了Hive的API来实现query Parsing和 Logic Plan generation，最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用。

类似项目

Twister :http://www.iterativemapreduce.org大概的意思也是通过Cache数据，实现迭代的MapReduce过程中的数据重用,不过它的模型貌似相对简单些，大致是通过拓展MapReduce API，分发管理缓存数据，然后通过自己的Daemon进程管理和分配MapReduce Task到Cache对应的节点上，容错性和计算模型方面没有Shark的RDD来得精巧和通用。