Spark为啥比hadoop速度快?

本文阐述了统一的RDD抽象和操作如何使Spark成为处理实时流计算、SQL交互式查询、机器学习和图计算的大数据通用计算平台。强调基于内存的迭代式计算和DAG在Spark中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.统一的RDD抽象和操作,基于该抽象一个栈就可以轻松的处理实时流计算,SQL交互式查询,机器学习和图计算等。
基于统一的技术堆栈,使得Spark称为大数据通用计算平台。
这里写图片描述

2.基于内存的迭代式计算
回顾下hadoop中经典处理过程:
这里写图片描述
MapReduce在每次执行时都要从磁盘读取数据,计算完毕后都要把数据存放到磁盘上。
比如:机器学习的时候,会不断的迭代数据 ,这样的话,会消耗大量的IO
这里写图片描述
而Spark是基于内存的。
这里写图片描述
3.DAG
它可以把整个执行过程做一个图,然后进行优化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值