Spark学习（一）之Spark初识

最新推荐文章于 2025-07-02 20:21:50 发布

原创最新推荐文章于 2025-07-02 20:21:50 发布 · 287 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark #hadoop

大数据学习专栏收录该内容

11 篇文章

订阅专栏

什么是spark

官网地址：http://spark.apache.org/

1. spark历史及简介

spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。
12年正式开源，距今6年历史。

2.spark四大特性

高效性
在内存中比MapReduce快100倍，disk中快10倍
易用性
易用性强上手快，支持java,scala,python,R语言
通用性
应用广，可包含大数据查询，流式计算，机器学习，图计算
兼容性
可以在各个平台下运行

3.spark的组成(基本组件)

SparkCore：将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。

SparkSQL：Spark Sql 是Spark来操作结构化数据的程序包，可以让我使用SQL语句的方式来查询数据，Spark支持多种数据源，包含Hive表，parquest以及JSON等内容。

SparkStreaming：是Spark提供的实时数据进行流式计算的组件。

4. Spark比MapReduce快的原因
1. Spark是支持基于内存的迭代，而Hadoop是不支持基于内存的迭代
2. spark是粗粒度资源调度,实现资源的复用
3. Spark支持DAG有向无环图,使task进行管道计算
4. Spark根据不通的场景选择不通的shuffle,其中HashShuffle不排序;Spark的shuffle比MR性能高:Spark默认Sort Shuffle,它没有很多的磁盘小文件
5. Spark的运行模式
- local：本地模式
- standalone：Spark自己可以给自己分配资源（master，worker）
- yarn：Spark可以运行在yarn上面
- mesos：Spark可以运行在Mesos里面（Mesos 类似于yarn的一个资源调度框架）
6. Spark运行架构

Spark运行架构的设计
1. Cluster Manager : 集群资源管理器，可以是自带的Mesos 也可以是Yarn
2. Worker Node : 运行作业任务的工作节点
3. Driver ：每个应用的任务控制节点
4. Executor ：每个工作节点负责具体任务的执行过程
Spark相关名词解释
- RDD：是Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
- DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系。
- Application：用户编写的Spark应用程序。
- Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行Task。
- Task：运行在Executor上的工作单元。
- Job：一个Job包含多个RDD及作用于相应RDD上的各种操作。
- Stage：是Job的基本调度单位，一个Job会分为多组Task,
  每组Task被称为Stage，或者也被称为TaskSet，代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集。