Spark的基本介绍

最新推荐文章于 2025-03-11 20:45:06 发布

a大数据yyds

最新推荐文章于 2025-03-11 20:45:06 发布

阅读量1.2k

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/qq_45765882/article/details/105358465

版权

spark 专栏收录该内容

35 篇文章

订阅专栏

Spark
1、什么是Spark
是基于内存的用于大规模数据处理(离线计算、实时计算、快速查询)的统一分析引擎。
也是一个生态系统。
2、官网
http://spark.apache.org
http://spark.apachecn.org
在这里插入图片描述
3、Spark特点
1）、速度快
比MapReduce块10-100倍
2）、易用（算法多）
MR只支持一种计算算法，Spark支持多种算法。
3）、通用
Spark可以支持离线计算、实时计算、快速查询（交互式）、机器学习、图计算
4）、兼容性强
支持大数据中现有的Yarn. Mesos等多种调度平台，可以处理hadoop支持的数据。
4、Spark发展史
2009 年诞生于加州大学伯克利分校AMP 实验室
2014年成为 Apache 的顶级项目
5、Spark为什么会流行
原因1：优秀的数据模型和计算抽
支持多种计算模型，而且基于内存（内存比硬盘速度快）
RDD 是一个可以容错且并行的数据结构
原因2：完善的生态圈（Spark生态圈）
在这里插入图片描述
Spark Core：实现Spark 基本功能（RDD）
SparK SQL: 操作结构化数据
Spark Streaming : 对实时数据进行流式计算
Spark MLlib : 机器学习(ML)功能
GraphX(图计算) : 用于图计算的API
6、Hadoop 对比Spark

7、Spark运行模式
1.local本地模式(单机)–开发测试使用
2.standalone独立集群模式–开发测试使用
3.standalone-HA高可用模式–生产环境使用
4.on yarn集群模式--生产环境使用
5.on mesos集群模式–国内使用较少
6.on cloud集群模式–中小公司未来会更多的使用云服务