07 | Flink的API可分为哪几层？

原创于 2025-11-18 15:24:59 发布 · 290 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据

Flink 专栏收录该内容

7 篇文章

订阅专栏

面试官您好，Flink 的 API 设计采用分层架构，从底层到高层依次提供不同抽象级别的编程接口，兼顾灵活性与易用性。总体可分为以下三层：

✅ 1. Stateful Stream Processing（有状态流处理层）—— 底层 API

代表 API：ProcessFunction
特点：
- 最底层、最灵活；
- 可直接访问 事件时间、Watermark、状态（State）、定时器（Timer）；
- 支持复杂事件处理（CEP）、自定义窗口逻辑等。
适用场景：需要精细控制时间、状态和事件处理逻辑的高级应用。

keyedStream.process(new ProcessFunction<Event, String>() {
    @Override
    public void processElement(Event value, Context ctx, Collector<String> out) {
        // 自定义处理 + 注册定时器
    }
});

✅ 2. DataStream API / DataSet API —— 核心中层 API

⚠️ 注意：DataSet API 在 Flink 1.12+ 已被弃用，推荐统一使用 DataStream API 实现流批一体。

代表 API：DataStream（流） / （旧版 DataSet）
特点：
- 提供丰富的算子：map、filter、keyBy、window、join 等；
- 支持 事件时间、窗口、状态管理；
- 同一套 API 可处理 有界流（批）和无界流（实时）。
适用场景：绝大多数流处理和批处理任务。

stream.keyBy("userId")
      .window(TumblingEventTimeWindows.of(Time.minutes(5)))
      .sum("value");

✅ 3. Table API & SQL —— 高层声明式 API

代表 API：Table API（链式调用） + Flink SQL
特点：
- 声明式编程，类似关系型数据库；
- 自动优化执行计划（基于 Apache Calcite）；
- 完全流批统一：同一段 SQL 可运行在流或批模式下；
- 支持窗口、聚合、Join、UDF 等。
适用场景：数据分析、实时数仓、BI 报表等快速开发场景。

-- Flink SQL 示例
SELECT user_id, COUNT(*) 
FROM clicks 
GROUP BY user_id, TUMBLE(ts, INTERVAL '1' MINUTE);

📊 三层 API 对比总结

层级	API 类型	抽象程度	灵活性	开发效率	典型用途
底层	ProcessFunction	低	⭐⭐⭐⭐⭐	低	复杂事件处理、自定义逻辑
中层	DataStream API	中	⭐⭐⭐⭐	中	主流实时计算、ETL
高层	Table API / SQL	高	⭐⭐	⭐⭐⭐⭐⭐	实时数仓、分析查询