Flink 是一个流处理框架,它的设计理念是 “一次处理,一次计算”,也就是说,Flink 会将数据一次性处理完成,而不会像 Spark 那样将数据分成多个批次进行处理。Flink 适用于实时数据处理、流式数据处理等场景,它的性能非常高,可以支持每秒数百万条数据的处理。
一、Apache Flink 技术概览
1.1 定义
Apache Flink 是一个开源的流处理框架,专为分布式、高性能、实时和准确的大规模数据流处理而设计。Flink 支持有状态计算,并且可以在所有常见的集群环境中运行,它能够自动进行水平扩展并恢复失败。
- Data Stream API: 用于连续数据流的处理。
- DataSet API: 用于批处理任务(在有限的数据集上)。
- CEP (Complex Event Processing): 用于识别事件序列中的模式。
1.2 历史背景和发展历程
Flink 最初是作为Stratosphere项目的一部分在柏林工业大学的研究中诞生。它的初衷是为了改善现有大数据处理系统中存在的延迟高、吞吐量低等问题。随着项目的进展,Flink 成为了Apache Software Foundation下的顶级项目之一,并由全球开发者社区共同维护和发展。关键里程碑包括对流处理的支持增强、Table API与SQL集

订阅专栏 解锁全文
1206

被折叠的 条评论
为什么被折叠?



