Flink和Spark Streaming流式计算模型比较分析

最新推荐文章于 2025-06-13 19:10:22 发布

故明所以

最新推荐文章于 2025-06-13 19:10:22 发布

阅读量2.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Flink 文章标签：大数据 flink spark streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43520450/article/details/106462769

流式计算模型比较分析

一、Spark Streaming

1.1 Spark概述

Spark是UC Berkeley AMP Lab开源的类似于MapReduce的通用的并行计算框架，同时兼顾分布式的并行计算模型和基于内存计算的特点。

Spark优于MapReduce的最大的好处是作业计算的中间结果不需要再像MapReduce一样刷写到hdfs等外部存储，而是保存在内存中，因此不需要与外部存储来回读写，能极大提升性能。

下面为Spark的部署图：
在这里插入图片描述
Spark的部署采用Master-Slave模型，运行时会在集群中启动Driver节点和多个Worker节点。Driver在接受客户端提交上来的作业后，建立RDD的血缘关系，记录血缘状态，分发任务到Worker节点上进行计算，并接受所有Worker节点的计算结果。

1.2 Spark Streaming 概述

Spark Streaming是建立在Spark之上的流式计算框架，通过Spark提供的API和基于内存的高速计算引擎，用户可以使用批处理进行micro-batch流式计算，做到代码逻辑上的重复使用。和Spark中的RDD非常相似，Spark Streaming中使用离散化流（Discretized Stream）作为抽象的表示，叫做DStream。
它是随时间推移而收集数据的序列，每个时间段收集到的数据在DStream内以一个RDD的形式存在。

Sp

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。