hadoop Storm Spark 的区别

最新推荐文章于 2023-09-26 16:28:00 发布

原创最新推荐文章于 2023-09-26 16:28:00 发布 · 363 阅读

CC 4.0 BY-SA版权

文章标签：

17 篇文章

订阅专栏

3 篇文章

订阅专栏

ps:

延时性：显示结果的速度，越低则计算结果越快

吞吐量：单位时间内，能够读取的数据。

Spark属于计算引擎，而Hadoop是分布式存储，hadoop中真正用于计算的是MapReduce，Spark将计算的文件存储与HDFS中，但也不一定是HDFS也可以是在其他的分布式文件系统中。

Hadoop可以独立运行，而不使用Spark。

两者都是大数据计算框架，但Storm是在内存级计算，而Hadoop是基于磁盘级计算，数据引入Hadoop中，分发到各个节点进行处理，处理完后返回给HDFS供用户使用。而Storm支持拓扑结构来转换没用终点的数据流。因此Storm的转换从不停止，除非手动关闭。

Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。

	Storm	Spark Streaming
实时计算模型	纯实时，来一条数据，处理一条数据	准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理
实时计算延迟度	毫秒级	秒级
吞吐量	低	高
事务机制	支持完善	支持，但不够完善
健壮性 / 容错性	ZooKeeper，Acker，非常强	Checkpoint，WAL，一般
动态调整并行度	支持	不支持