Spark的基本介绍

Spark
1、什么是Spark
是基于内存的用于大规模数据处理(离线计算、实时计算、快速查询)的统一分析引擎。
也是一个生态系统。
2、官网
http://spark.apache.org
http://spark.apachecn.org
在这里插入图片描述
3、Spark特点
1)、速度快
比MapReduce块10-100倍
2)、易用(算法多)
MR只支持一种计算 算法,Spark支持多种算法。
3)、通用
Spark可以支持离线计算、实时计算、快速查询(交互式)、机器学习、图计算
4)、兼容性强
支持大数据中现有的Yarn. Mesos等多种调度平台,可以处理hadoop支持的数据。
4、Spark发展史
2009 年诞生于加州大学伯克利分校AMP 实验室
2014年成为 Apache 的顶级项目
5、Spark为什么会流行
原因1:优秀的数据模型和计算抽
支持多种计算模型,而且基于内存(内存比硬盘速度快)
RDD 是一个可以容错且并行的数据结构
原因2:完善的生态圈(Spark生态圈)
在这里插入图片描述
Spark Core:实现Spark 基本功能(RDD)
SparK SQL: 操作结构化数据
Spark Streaming : 对实时数据进行流式计算
Spark MLlib : 机器学习(ML)功能
GraphX(图计算) : 用于图计算的API
6、Hadoop 对比Spark
在这里插入图片描述
7、Spark运行模式
1.local本地模式(单机)–开发测试使用
2.standalone独立集群模式–开发测试使用
3.standalone-HA高可用模式–生产环境使用
4.on yarn集群模式--生产环境使用
5.on mesos集群模式–国内使用较少
6.on cloud集群模式–中小公司未来会更多的使用云服务

Spark是一款快速、通用、可扩展的大数据处理引擎,有着丰富的API和数据处理组件。以下是Spark基本语句介绍: 1. 创建RDD:使用SparkContext对象的parallelize()方法可以将一个集合转化为RDD。例如,下面的代码创建了一个包含1到10整数的RDD。 ``` val rdd = sc.parallelize(1 to 10) ``` 2. 转化操作:Spark支持多种转化操作,如map、filter、flatMap、union等。例如,下面的代码将rdd中的每个元素都加1。 ``` val rdd2 = rdd.map(x => x + 1) ``` 3. 行动操作:行动操作会触发Spark计算并返回结果。例如,下面的代码使用reduce()方法将rdd2中的元素相加。 ``` val sum = rdd2.reduce((x, y) => x + y) ``` 4. 键值对RDD操作:Spark还支持基于键值对的操作,如reduceByKey、groupByKey、sortByKey等。例如,下面的代码将rdd2转化为键值对RDD,并根据键进行求和。 ``` val kvRdd = rdd2.map(x => (x % 2, x)) val sumByKey = kvRdd.reduceByKey((x, y) => x + y) ``` 5. Spark SQL:Spark SQL是Spark的另一个组件,用于处理结构化数据。可以使用SparkSession对象来创建DataFrame或Dataset,并执行SQL查询。例如,下面的代码从一个json文件中创建DataFrame,并执行查询。 ``` val df = spark.read.json("file.json") df.createOrReplaceTempView("people") val result = spark.sql("SELECT * FROM people WHERE age > 18") ``` 这些是Spark基本语句,可以帮助你开始使用Spark进行数据处理和分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值