Spark入门(一)概述

最新推荐文章于 2025-04-18 17:34:40 发布

原创最新推荐文章于 2025-04-18 17:34:40 发布 · 1.7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据

Spark 专栏收录该内容

4 篇文章

订阅专栏

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

关于Spark首先抛出几个问题：

Spark是什么？
Spark的优势？（存在价值）
Spark主要功能？

剩下的关于Spark的框架原理与具体使用，之后再与大家介绍。

Spark是什么

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

回顾Spark的历史，不得不回顾Hadoop的发展：

2011年Hadoop发布1.x版本，2012年发布稳定版本。1.x在当时存在一些问题：

1）NameNode不能高可用
2）MapReduce框架将资源调度和任务调度耦合在一起
3）MapReduce框架基于磁盘计算，性能较低

2013年10月发布2.x稳定版本，其增加了YARN。Hadoop2.x解决了Hadoop1.x中的向题

1)NameNode高可用——Hadoop HA
2)将资源调度和任务调度解耦
3)计算框架可插拔

Hadoop的版本升级
Spark框架历史：其源于2009年诞生于加州大学伯克利分校AMPLab项目，采用Scala编写，并于2010年开源；2013年6月该项目成为Apache孵化项目（基于Hadoop问题,将资源和任务调度分开）；2014年2月成为Apache顶级项目。

Hadoop2.x与Spark的简单对比：
在这里插入图片描述

Spark的特点

1.快

与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。

2.易用

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用
而且Spark支持交互式的Python和Scala的Shell，可以非常方便地在这些Shell中使用Spark集群来验证解诀问题的方法。

3.通用

Spark提供了统一的解决方案：Spark可以用于，交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX)；这些不同类型的处理都可以在同一个应用中无缝使用。减少了开发和维护的人力成本和部署平台的物力成本。

4.兼容性

Spark可以非常方便地与其他的开源产品进行融合。
比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。

Spark 比 MapReduce 快的原因

1.Spark 基于内存迭代，而 MapReduce基于磁盘迭代

MapReduce 的设计：中间结果保存到文件，可以提高可靠性，减少内存占用，但是牺牲了性能。
Spark 的设计：数据在内存中进行交换，要快一些，但是内存这个东西，可靠性比不过 MapReduce。

2.DAG 计算模型在迭代计算上比 MR 的更有效率

在图论中，如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG）
Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型；

在这里插入图片描述

一般而言，DAG相比MapReduce在大多数情况下可以减少shuffle次数。Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。但是，如果计算过程中涉及数据交换，Spark也是会把shuffle的数据进行落盘。

1）Hadoop MapReduce框架：

从数据源获取数据，经过分析计算后，将结果输出到指定位置，核心是一次计算，不适合迭代计算。

在这里插入图片描述

2）Spark框架：

支持迭代式计算，图形计算
Spark框架计算比MR快的原因是：中间结果不落盘
注意：如果计算过程中涉及数据交换，Spark也是会把shuffle的数据进行落盘

在这里插入图片描述

有一个误区，Spark是基于内存的计算所以快，这不是主要原因。要对数据做计算，必然得加载到内存，Hadoop也是如此，只不过Spark支持将需要反复用到的数据给Cache到内存中，减少数据加载耗时，所以Spark跑机器学习算法比较在行（需要对数据进行反复迭代）。Spark基于磁盘的计算也是比Hadoop快。刚刚提到了Spark的DAGScheduler是个改进版的MapReduce，所以Spark天生适合做批处理的任务。Hadoop的MapReduce虽然不如spark性能好，但是HDFS仍然是业界的大数据存储标准。

3.Spark 是粗粒度的资源调度，而 MR 是细粒度的资源调度

Spark主要功能

Spark力图整合机器学习（MLib）、图算法（GraphX）、流式计算（Spark Streaming）和数据仓库（Spark SQL）等领域，通过计算引擎Spark，弹性分布式数据集（RDD），架构出一个新的大数据应用平台。

Spark的内置模块如下图所示：

在这里插入图片描述

Spark生态圈以HDFS、S3、Techyon等为底层存储引擎，以Yarn、Mesos和Standlone作为资源调度引擎，同时：

Spark可以实现MapReduce应用
Spark SQL可以实现即席查询
Spark Streaming可以处理实时应用
Spark MLib可以实现机器学习算法
Spark GraphX可以实现图计算
SparkR可以实现复杂数学计算

1）Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。

2）Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。

3）Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。

4）Spark MLlib：提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

5）Spark GraphX：主要用于图形并行计算和图挖掘系统的组件。

6）集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器(Cluster Manager)上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。

Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。