Flink 特性

原创已于 2022-05-31 16:25:15 修改 · 5.3w 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#flink

于 2020-04-23 00:10:16 首次发布

flink 专栏收录该内容

29 篇文章

订阅专栏

本文深入探讨了Apache Flink的高吞吐、低延迟、精确一次状态一致性等核心特性，以及其分层API，包括底层处理函数、DataStreamAPI、DataSetAPI、TableAPI和SQL层，展示了Flink在流处理和批处理领域的强大能力。

文章目录

- 1. Flink 的核心特性
- 2. 分层 API

1. Flink 的核心特性

高吞吐和低延迟：每秒处理数百万个事件，毫秒级延迟；

结果的准确性：Flink 提供了事件时间（event-time）和处理时间（processing-time）语义。对于乱序事件流，事件时间语义仍然能提供一致且准确的结果;

精确一次（exactly-once）的状态一致性保证;

可以连接到最常用的存储系统，如 Apache Kafka、Elasticsearch、JDBC、（分布式）文件系统HDFS

高可用。本身高可用的设置，加上与 K8s，YARN 的紧密集成，再加上从故障中快速恢复和动态扩展任务的能力，Flink 能做到以极少的停机时间 7×24 全天候运行

能够更新应用程序代码并将作业（jobs）迁移到不同的 Flink 集群，而不会丢失应用程序的状态

2. 分层 API

在这里插入图片描述

最底层级的抽象仅仅提供了有状态流，底层处理函数（Process Function）与 DataStream API 相集成，可以对某些操作进行抽象，它允许用户可以使用自定义状态处理来自一个或多个数据流的事件，且状态具有一致性和容错保证。除此之外，用户可以注册事件时间并处理时间回调，从而使程序可以处理复杂的计算。

大多数应用并不需要底层抽象，而是直接针对核心 API（Core APIs）进行编程，比如 DataStream API（用于处理有界或无界流数据）以及 DataSet API（用于处理有界数据集）。这些 API 为数据处理提供了通用的构建模块，比如由用户定义的多种形式的转换（transformations）、连接（joins）、聚合（aggregations）、窗口（windows）操作等。这些 API 处理的数据类型以类（classes）的形式由各自的编程语言所表示。

Table API 是以表为中心的声明式编程，其中表在表达流数据时会动态变化。Table API 遵
循关系模型：表有二维数据结构（schema）（类似于关系数据库中的表），同时 API 提供可比较的操作，例如 select、join、group-by、aggregate 等。尽管 Table API 可以通过多种类型的用户自定义函数（UDF）进行扩展，仍不如核心 API更具表达能力，但是使用起来代码量更少，更加简洁。除此之外，Table API 程序在执行之前会使用内置优化器进行优化。可以在表与 DataStream/DataSet 之间无缝切换，以允许程序将 Table API 与DataStream 以及 DataSet 混合使用。

Flink 提供的最高层级的抽象是 SQL。这一层抽象在语法与表达能力上与 Table API 类似，
但是是以 SQL 查询表达式的形式表现程序。SQL 抽象与 Table API 交互密切，同时 SQL 查询可以直接在 Table API 定义的表上执行。