Spark入门(一)概述

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

关于Spark首先抛出几个问题:

  • Spark是什么?
  • Spark的优势?(存在价值)
  • Spark主要功能?

剩下的关于Spark的框架原理与具体使用,之后再与大家介绍。

Spark是什么

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

回顾Spark的历史,不得不回顾Hadoop的发展:

2011年Hadoop发布1.x版本,2012年发布稳定版本。1.x在当时存在一些问题:

  • 1)NameNode不能高可用
  • 2)MapReduce框架将资源调度和任务调度耦合在一起
  • 3)MapReduce框架基于磁盘计算,性能较低

2013年10月发布2.x稳定版本,其增加了YARN。Hadoop2.x解决了Hadoop1.x中的向题

  • 1)NameNode高可用——Hadoop HA
  • 2)将资源调度和任务调度解耦
  • 3)计算框架可插拔

Hadoop的版本升级
Spark框架历史:其源于2009年诞生于加州大学伯克利分校AMPLab项目,采用Scala编写,并于2010年开源;2013年6月该项目成为Apache孵化项目(基于Hadoop问题,将资源和任务调度分开);2014年2月成为Apache顶级项目。

Hadoop2.x与Spark的简单对比:
在这里插入图片描述

Spark的特点

1.快

  • 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。

2.易用

  • Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用
  • 而且Spark支持交互式的Python和Scala的Shell,可以非常方便地在这些Shell中使用Spark集群来验证解诀问题的方法。

3.通用

  • Spark提供了统一的解决方案:Spark可以用于,交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX);这些不同类型的处理都可以在同一个应用中无缝使用。减少了开发和维护的人力成本和部署平台的物力成本。

4.兼容性

  • Spark可以非常方便地与其他的开源产品进行融合。
  • 比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase等。这对于已经部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark的强大处理能力。

Spark 比 MapReduce 快的原因

1.Spark 基于内存迭代,而 MapReduce基于磁盘迭代

  • MapReduce 的设计:中间结果保存到文件,可以提高可靠性,减少内存占用,但是牺 牲了性能。
  • Spark 的设计:数据在内存中进行交换,要快一些,但是内存这个东西,可靠性比不过 MapReduce。

2.DAG 计算模型在迭代计算上比 MR 的更有效率

  • 在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是 一个有向无环图(DAG)
  • Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型;

在这里插入图片描述

一般而言,DAG相比MapReduce在大多数情况下可以减少shuffle次数。Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。但是,如果计算过程中涉及数据交换,Spark也是会把shuffle的数据进行落盘。

1)Hadoop MapReduce框架:

  • 从数据源获取数据,经过分析计算后,将结果输出到指定位置,核心是一次计算, 不适合迭代计算。

在这里插入图片描述

2)Spark框架:

  • 支持迭代式计算,图形计算
  • Spark框架计算比MR快的原因是:中间结果不落盘
  • 注意:如果计算过程中涉及数据交换,Spark也是会把shuffle的数据进行落盘

在这里插入图片描述

有一个误区,Spark是基于内存的计算所以快,这不是主要原因。要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据给Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。Spark基于磁盘的计算也是比Hadoop快。刚刚提到了Spark的DAGScheduler是个改进版的MapReduce,所以Spark天生适合做批处理的任务。Hadoop的MapReduce虽然不如spark性能好,但是HDFS仍然是业界的大数据存储标准。

3.Spark 是粗粒度的资源调度,而 MR 是细粒度的资源调度

Spark主要功能

Spark力图整合机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等领域,通过计算引擎Spark,弹性分布式数据集(RDD),架构出一个新的大数据应用平台。

Spark的内置模块如下图所示:

在这里插入图片描述

Spark生态圈以HDFS、S3、Techyon等为底层存储引擎,以Yarn、Mesos和Standlone作为资源调度引擎,同时:

  • Spark可以实现MapReduce应用
  • Spark SQL可以实现即席查询
  • Spark Streaming可以处理实时应用
  • Spark MLib可以实现机器学习算法
  • Spark GraphX可以实现图计算
  • SparkR可以实现复杂数学计算

1)Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。

2)Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。

3)Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中的 RDD API高度对应。

4)Spark MLlib:提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。

5)Spark GraphX:主要用于图形并行计算和图挖掘系统的组件。

6)集群管理器:Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度器,叫作独立调度器。

Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值