Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
关于Spark首先抛出几个问题:
- Spark是什么?
- Spark的优势?(存在价值)
- Spark主要功能?
剩下的关于Spark的框架原理与具体使用,之后再与大家介绍。
Spark是什么
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
回顾Spark的历史,不得不回顾Hadoop的发展:
2011年Hadoop发布1.x版本,2012年发布稳定版本。1.x在当时存在一些问题:
- 1)NameNode不能高可用
- 2)MapReduce框架将资源调度和任务调度耦合在一起
- 3)MapReduce框架基于磁盘计算,性能较低
2013年10月发布2.x稳定版本,其增加了YARN。Hadoop2.x解决了Hadoop1.x中的向题
- 1)NameNode高可用——Hadoop HA
- 2)将资源调度和任务调度解耦
- 3)计算框架可插拔
Spark框架历史:其源于2009年诞生于加州大学伯克利分校AMPLab项目,采用Scala编写,并于2010年开源;2013年6月该项目成为Apache孵化项目(基于Hadoop问题,将资源和任务调度分开);2014年2月成为Apache顶级项目。
Hadoop2.x与Spark的简单对比:
Spark的特点
1.快
- 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。
2.易用
- Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用
- 而且Spark支持交互式的Python和Scala的Shell,可以非常方便地在这些Shell中使用Spark集群来验证解诀问题的方法。
3.通用
- Spark提供了统一的解决方案:Spark可以用于,交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX);这些不同类型的处理都可以在同一个应用中无缝使用。减少了开发和维护的人力成本和部署平台的物力成本。
4.兼容性
- Spark可以非常方便地与其他的开源产品进行融合。
- 比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase等。这对于已经部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark的强大处理能力。
Spark 比 MapReduce 快的原因
1.Spark 基于内存迭代,而 MapReduce基于磁盘迭代
- MapReduce 的设计:中间结果保存到文件,可以提高可靠性,减少内存占用,但是牺 牲了性能。
- Spark 的设计:数据在内存中进行交换,要快一些,但是内存这个东西,可靠性比不过 MapReduce。
2.DAG 计算模型在迭代计算上比 MR 的更有效率
- 在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是 一个有向无环图(DAG)
- Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型;
一般而言,DAG相比MapReduce在大多数情况下可以减少shuffle次数。Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。但是,如果计算过程中涉及数据交换,Spark也是会把shuffle的数据进行落盘。
1)Hadoop MapReduce框架:
- 从数据源获取数据,经过分析计算后,将结果输出到指定位置,核心是一次计算, 不适合迭代计算。
2)Spark框架:
- 支持迭代式计算,图形计算
- Spark框架计算比MR快的原因是:中间结果不落盘
- 注意:如果计算过程中涉及数据交换,Spark也是会把shuffle的数据进行落盘
有一个误区,Spark是基于内存的计算所以快,这不是主要原因。要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据给Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。Spark基于磁盘的计算也是比Hadoop快。刚刚提到了Spark的DAGScheduler是个改进版的MapReduce,所以Spark天生适合做批处理的任务。Hadoop的MapReduce虽然不如spark性能好,但是HDFS仍然是业界的大数据存储标准。
3.Spark 是粗粒度的资源调度,而 MR 是细粒度的资源调度
Spark主要功能
Spark力图整合机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等领域,通过计算引擎Spark,弹性分布式数据集(RDD),架构出一个新的大数据应用平台。
Spark的内置模块如下图所示:
Spark生态圈以HDFS、S3、Techyon等为底层存储引擎,以Yarn、Mesos和Standlone作为资源调度引擎,同时:
- Spark可以实现MapReduce应用
- Spark SQL可以实现即席查询
- Spark Streaming可以处理实时应用
- Spark MLib可以实现机器学习算法
- Spark GraphX可以实现图计算
- SparkR可以实现复杂数学计算
1)Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。
2)Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。
3)Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中的 RDD API高度对应。
4)Spark MLlib:提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。
5)Spark GraphX:主要用于图形并行计算和图挖掘系统的组件。
6)集群管理器:Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度器,叫作独立调度器。
Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。