Spark和Flink

最新推荐文章于 2025-10-26 21:42:48 发布

原创最新推荐文章于 2025-10-26 21:42:48 发布 · 447 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

程序专栏收录该内容

20 篇文章

订阅专栏

Flink VS Spark 流计算和机器学习集成

在流式计算领域，同一套系统需要同时兼具容错和高性能其实非常难,同时也是一个衡量和选择的一个系统的标准，在这个领域内 Spark和flink是非常强劲的对手
在这里插入图片描述
1.Spark和 Flink Api情况比较

在这里插入图片描述
2.Spark和Flink支持的语言 Such as:

3.Spark和flink之间的 Conection
Spark支持的Connection（链接如下:

Flink支持的Connection 如下:

从 spark和flink对比看出目前Spark支持的相对多一些，flink后续也会继续完善起来。
Flink VS Spark 运行环境的对比
在这里插入图片描述
Spark和Flink 社区的对比
Spark社区不管是在规模和活跃度都是领先的，发展的时间长，由于公司Databricks由于本土优势在美国由于Flink

而作为德国公司，Data Artisans 想在美国扩大影响力相对于困难,但是Flink的社区还有一批稳定的支持者。

但是在中国对于Flink相对于友好一些，因为中国公司效率块，愿意尝试新技术
总结:
Spark 和 Flink 都是通用的开源大规模处理引擎，目标是在一个系统中支持所有的数据处理以带来效能的提升。两者都有相对比较成熟的生态系统。是下一代大数据引擎最有力的竞争者。

Spark 的生态总体更完善一些，在机器学习的集成和易用性上暂时领先。

Flink 在流计算上有明显优势，核心架构和模型也更透彻和灵活一些。

在易用性方面两者也都还有一些地方有较大的改进空间。接下来谁能尽快补上短板发挥强项就有更多的机会。

总而言之，Flink与Spark没有谁强谁弱，只有哪个更适合当前的场景。
　二、Spark与Flink的特点剖析

1.Spark 1.4的6大特点

众所周知，提出最主要抽象概念——弹性分布式数据集（RDD）的是Spark。RDD是一个元素集合，将其划分到集群的各个节点上可以被并行操作。当然，用户也可以让Spark保留一个RDD在内存里，让其能在并行操作中被有效地重复使用。Spark是实至名归的快速、通用的计算集群系统。结合下图Spark架构图与生态系统图，可以看出Spark 1.4的6大特点：

①Spark SQL（DataFrame）添加了ORCFile类型支持以及所有的Hive metastore支持；

②增加了UI的Spark Streaming，使得用户查看各种状态更加地便捷，随着和Kafka融合的加深，对Kinesis的支持也加强了很多；

③Spark之所以提供了更多的算法和工具，是因为Spark ML/MLlib的ML pipelines越来越成熟；

④使用了REST API，Spark可以为应用获取如jobs、stages、storage info、tasks等各种信息；

⑤内存管理、代码生成、垃圾回收等方面都有很多改进，这些都得益于Tungsten项目的持续优化；

⑥SparkR的发布让Spark得到更友好的R语法的支持。

2.Flink 0.9的7大特点

作为可扩展的批处理和流式数据处理的数据处理平台，Flink的设计思想主要来源于Hadoop、MPP数据库、流式计算系统等。支持增量迭代计算是Flink最大的特点，而且其对于迭代计算和流式计算的支持力度都将会加强。结合下图Flink架构图与生态系统图，可以看出Flink 0.9的7大特点：

①搭载DataSet API，让Flink支持Java、Python和Scala等多种编程语言；

②同样地，搭载DataStream API，让Flink支持Java和Scala；

③Flink ML和Gelly提供机器学习和图处理的多种库；

④Table API能够支持类SQL；