spark-core讲解(day1)

简介

什么是Spark

Spark特点

1)Speed:相比于MR,官方说,基于内存计算spark要快mr100倍,基于磁盘计算spark要快mr10倍。如图-1所示。

图-1 Spark和Hadoop运行速度比较

2)Ease of Use:Spark提供超过80多个高阶算子函数,来支持对数据集的各种各样的计算,使用的时候,可以使用java、scala、python、R,非常灵活易用。

df = spark.read.json("logs.json")

df.where("age > 21")

.select("name.first")

.show()

3)Generality:通用性如图-2所示。

图-2 Spark通用性特点

4)Runs Everywhere:Spark程序可以再多个平台上面运行,如图-3所示。

图-3 Spark到处运行

Spark概述总结

什么是Spark呢?它就是一个集成离线计算,实时计算,SQL查询,机器学习,图计算为一体的通用的计算框架。

何为通用?就是在一个项目中,既可以使用离线计算,也可以使用其他比如,SQL查询,机器学习,图计算等等,而这是Spark最最最强大的优势,没有之一。

而这一切的基础是SparkCore,速度比传统的mr快的原因就是基于内存的计算。

Spark开发过程中,使用到的模型——RDD(Resilient Distributed Dataset,弹性分布式数据集),在编程中起到了非常重要的作用。

RDD概述

何为RDD?其实RDD就是一个不可变的scala的并行集合。

Spark的核心概念就是RDD,指的是一个不可变、可分区、里面元素可并行计算的集合,这个数据的全部或者部分可以缓存在内存中,在多次计算间被重用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BigData-缑溪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值