Spark笔记1之Spark介绍

Spark是一种分布式计算框架,其计算效率比MapReduce高出100倍以上,支持SQL查询优化、资源复用和粗粒度调度。Spark具备易用性,提供80多种算子,且兼容多种编程语言。其强通用性和适应性使其能处理多种数据源并在不同资源调度框架上运行。

目录

一、什么是Spark

二、Spark的现状

三、spark优势

1、速度speed

2、使用方便

3、强通用性

4、强适应性

四、Spark中的数据模型RDD


官网:https://spark.apache.org/

一、什么是Spark

      spark:分布式计算框架,类似hadoop生态圈中的MapReduce(MR分布式计算框架),计算思想和MR相似

      都是分而治之的思想

       Spark比MR火

二、Spark的现状

    2016年底 1000组织正在使用spark

三、spark优势

    spark的计算效率比MR要高100倍以上

    因为

1、速度speed

   1、有向sql无环图,

    2、查询优化器(主要用于Spark SQL)

    SQL -> sparkSQL ->spark任务 -> 分布式集群中计算

    SQL ->Hive -> MR任务 -> 分布式集群中计算

     虽然Hive的计算能力不行,但Hive非常适合做数据仓库

    3、物理执行引擎

    4、资源复用

    5、粗粒度的资源调度

2、使用方便

1、支持使用多门语言

2、Spark提供了80多种方法(算子)来供我们使用

 

scala语言:

基于JVM的编程语言

java和scala可以无缝集成

都是由.class ->JVM

scala和python有99%的相似性

scala简洁方便,但是可读性差

 

3、强通用性

Spark SQL:通过一条SQL语句在海量数据上查询

Spark Streaming: 流式处理(每产生一条数据就会立马对这条数据进行处理)框架
流式处理框架:Spark Streaming、storm、flink

批处理(等一段时间的数据,在未来的某个时间点,对这些数据进行批量处理)框架

批处理框架:MR、Spark Core

4、强适应性

1、Spark Application 可以运行在各种各样的资源调度框架上,如Yarn、Mesos、 Standalone

2、可接收上百种数据源 Access data in HDFSAlluxioApache CassandraApache HBaseApache Hive, and hundreds of other data sources.

 

四、Spark中的数据模型RDD

RDD(Resilient Distributed Datasets)弹性的分布式数据集

在Spark中一切计算都是基于RDD计算的

Spark分布式计算框架

HDFS分布式存储框架

假设Spark处理的数据在HDFS

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值