Spark是兼容batch处理,和流处理(通过continuous processing in structured streaming来实现流处理,DStream in 2.4)的大数据分析框架。
Spark的核心是RDD,在batch处理上面有巨大的生态。在流处理方面正在追赶Flink。Spark Tungsten项目
Spark争取兼容batch and streaming
Flink是专做流处理的,慢慢的功能也在变的日益强大。
Batch processing是stream的special case
Flink的核心是“计算窗口”, 快速流式计算
阿里在推flink – blink,然后9000万Euro收购了Data Artisans(Flink的母公司)。下面全看Alibaba的啦。
我的观点:两个生态在互相影响,互相借鉴。只要Spark目前的架构能够很快的支持Flink之类软件的新功能,那么Spark应该是立于不败之地,因为Spark的生态要比Flink大。
两个知乎的link
- Spark会不会过时了2018年底,比较新
- Spark和Flink异同2017之前
(有待进一步了解和总结)
Flink | Spark |
---|---|
Dataset | Dataframe |