Spark框架介绍

一、Spark是什么

一、定义

Apache Spark是用于大规模数据处理的统一分析引擎

二、Spark更快的原因

  • 数据结构(编程模型):Spark框架核心

    • RDD:弹性分布式数据集,认为是列表List

    • Spark 框架将要处理的数据封装到集合RDD中,调用RDD中函数处理数据

    • RDD 数据可以放到内存中,内存不足可以放到磁盘中

  • Task任务运行方式:以线程Thread方式运行

    • MapReduce中Task是以进程Process方式运行,当时Spark Task以线程Thread方式运行。

    • 线程Thread运行在进程Process中,启动和销毁是很快的(相对于进程来说)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tF6JyHBy-1644111477332)(C:\Users\EuropeanSheik\AppData\Roaming\Typora\typora-user-images\image-20220125142329172.png)]

二、Spark和Hadoop的对比

一、二者各方面比较

Hadoop Spark
类型 基础平台,包含计算、存储、调度</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值