- 简单介绍一下Flink?相比较传统的Spark Streaming 区别?
1、简单介绍一下Flink?
Flink是一个框架和分布式处理引擎,用于处理有界和无界的数据流进行有状态计算,flink还提供了数据分布、容错机制和资源管理等核心功能。
- Flink VS Spark
数据处理架构:
Spark是批处理,即使是处理实时数据,在Spark中的说法的微批处理。
Flink 是流处理,处理批数据声明为有界数据流,流处理是处理无界数据流。
运行时架构:
Spark是批计算,将DAG划分成不同的stage,一个完成之后才能计算下一个。
Flink是标准的流执行模式,一个事件在一个节点处理后直接发往下一个节点进行处理
时间机制:
Spark只支持处理时间。
Flink支持事件时间、处理时间、注入时间,同时也支持watermark机制来处理滞后的数据。
- Flink的组件栈有哪些?各自的作用?公司的flink集群规模多大?
Flink分层架构,从上到下一次层:API&Libraries、RunTime核心层和物理部署层

Deploy 层:该层主要涉及了Flink的部署模式,在上图中我们可以看出,Flink 支持包括local、Standalone、Cluster、Cloud等多种部署模式。

本文简要介绍了Flink作为一个流处理框架的核心特点,包括其与Spark Streaming的主要区别,如Flink支持事件时间、处理时间和注入时间,以及watermark机制。Flink的架构分为API&Libraries、RunTime核心层和物理部署层,提供了多种部署模式。Flink集群包含JobManager、TaskManager和Client,各自承担调度、计算执行和任务提交的角色。watermark机制用于处理迟到数据,确保流处理的正确性。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



