hadoop — Storm — Spark 的区别
| Storm | Hadoop | Spark | |
|---|---|---|---|
| 计算模式 | 流式处理 | 批次处理 | 流式批次处理 |
| 计算等级 | 内存计算 | 磁盘计算 | 内存计算 |
| 核心 | Spouts/Bolt | HDFS/MP | SDD |
| 适用场景 | 实时性流数据 | 离线处理 | 实时/离线处理 |
| 延时性 | 低 | 高 | 中 |
| 吞吐量 | 低 | 高 | 中 |
| 结束时间 | 手动关闭 | 任务结束 | 任务结束 |
ps:
延时性:显示结果的速度,越低则计算结果越快
吞吐量:单位时间内,能够读取的数据。
Spark vs Hadoop
Spark属于计算引擎,而Hadoop是分布式存储,hadoop中真正用于计算的是MapReduce,Spark将计算的文件存储与HDFS中,但也不一定是HDFS也可以是在其他的分布式文件系统中。
Hadoop可以独立运行,而不使用Spark。
Storm vs Hadoop
两者都是大数据计算框架,但Storm是在内存级计算,而Hadoop是基于磁盘级计算,数据引入Hadoop中,分发到各个节点进行处理,处理完后返回给HDFS供用户使用。而Storm支持拓扑结构来转换没用终点的数据流。因此Storm的转换从不停止,除非手动关闭。
Storm vs Spark Streaming
Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。
| Storm | Spark Streaming | |
|---|---|---|
| 实时计算模型 | 纯实时,来一条数据,处理一条数据 | 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 |
| 实时计算延迟度 | 毫秒级 | 秒级 |
| 吞吐量 | 低 | 高 |
| 事务机制 | 支持完善 | 支持,但不够完善 |
| 健壮性 / 容错性 | ZooKeeper,Acker,非常强 | Checkpoint,WAL,一般 |
| 动态调整并行度 | 支持 | 不支持 |

2万+

被折叠的 条评论
为什么被折叠?



