Flink窗口Tumble中retract流问题

似水_逆行

已于 2024-09-27 10:23:20 修改

阅读量1.2k

点赞数 17

CC 4.0 BY-SA版权

分类专栏： Flink 文章标签： flink 大数据

于 2024-09-27 10:19:40 首次发布

本文链接：https://blog.youkuaiyun.com/qq_43462685/article/details/142586901

Flink 专栏收录该内容

22 篇文章

订阅专栏

一、Tumble窗口

在 Flink 中，TUMBLE 窗口是一种滚动窗口，它将数据流分割成固定大小的无重叠窗口，并在每个窗口上应用计算。这种窗口非常适合用于处理需要在固定时间间隔内进行聚合计算的场景，例如计算每个五分钟内的总点击量或平均温度等。

定义 `TUMBLE` 窗口

TUMBLE 窗口可以通过 Flink SQL 的 GROUP BY 子句定义，其基本语法如下：

SELECT ...
FROM ...
GROUP BY TUMBLE(time_attr, interval)

注意事项

TUMBLE 窗口是无重叠的，这意味着每个元素只会被分配到一个窗口中。这与 HOP 窗口（可以有重叠）和 SESSION 窗口（基于非活动间隔）不同。

二、Tumble中retract流问题

TUMBLE 窗口出现 retract 流的原因主要是因为 Flink 在处理窗口时，当新的数据到达并触发窗口计算时，如果数据属于较早的窗口，Flink 会发送一个带有 false 标记的更新消息来撤回之前的状态，这就产生了 retract 流。

三、回撤流解决办法

为了解决 TUMBLE 窗口中的 retract 流问题，Flink 提供了几种方法：

使用 CUMULATE 窗口：CUMULATE 窗口是 Flink 1.13 版本引入的，它允许在固定的时间间隔内累积数据，而不是在每个 TUMBLE 窗口结束时触发计算。这样可以减少 retract 流的产生，因为它是基于事件时间而不是处理时间来触发计算的。
使用 UPSERT 模式：在定义 sink 的时候，可以选择 UPSERT 模式，这样 Flink 会生成 INSERT 和 UPDATE 语句而不是 retract 流。这种方法适用于可以处理 UPSERT 操作的 sink，比如 JDBC sink。
使用 WITH RETRACT 子句：在 Flink SQL 查询中，可以使用 WITH RETRACT 子句来显式地处理 retract 流。这样，查询的结果会包含一个布尔值，指示记录是新增的还是被撤回的。
使用自定义函数：可以通过编写自定义函数来处理 retract 流。例如，可以创建一个函数来合并新增和撤回的消息，以确保最终结果的准确性。
使用状态管理：在 Flink 的 ProcessFunction 中，可以使用状态管理来跟踪每个键的当前值，并在收到更新或撤回消息时相应地更新状态。

选择哪种方法取决于具体的应用场景和需求。在某些情况下，可能需要结合使用多种方法来有效地处理 retract 流。

3.1 使用with retract子句解决回撤流的sql示例

在 Flink SQL 中，使用 WITH RETRACT 子句可以处理带有 retract 流的查询。这通常与 TUMBLE 窗口一起使用，以便在结果中明确哪些行是新增的（true），哪些行是被撤回的（false）。以下是一个使用 WITH RETRACT 子句的 TUMBLE 窗口的 SQL 示例：

使用 WITH RETRACT 子句：在 Flink SQL 查询中，可以使用 WITH RETRACT 子句来显式地处理 retract 流。这样，查询的结果会包含一个布尔值，指示记录是新增的还是被撤回的。
使用自定义函数：可以通过编写自定义函数来处理 retract 流。例如，可以创建一个函数来合并新增和撤回的消息，以确保最终结果的准确性。
使用状态管理：在 Flink 的 ProcessFunction 中，可以使用状态管理来跟踪每个键的当前值，并在收到更新或撤回消息时相应地更新状态。

-- 假设有一个名为 "sensor_data" 的表，其中包含 "timestamp" 和 "temperature" 列
-- 以及一个名为 "watermark" 的 watermark 定义

CREATE TABLE sensor_data (
    timestamp TIMESTAMP(3),
    temperature DOUBLE,
    WATERMARK FOR timestamp AS timestamp - INTERVAL '5' SECONDS
) WITH (
    'connector' = 'kafka',  -- 假设数据来自 Kafka
    'topic' = 'temperature-topic',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'json',
    'properties.bootstrap.servers' = 'localhost:9092'
);

-- 使用 TUMBLE 窗口计算每5分钟的平均温度，并使用 WITH RETRACT 子句处理 retract 流
SELECT
    TUMBLE_START(timestamp, INTERVAL '5' MINUTES) AS window_start,
    TUMBLE_END(timestamp, INTERVAL '5' MINUTES) AS window_end,
    AVG(temperature) AS avg_temperature,
    is_withdrawn
FROM
    sensor_data
GROUP BY
    TUMBLE(timestamp, INTERVAL '5' MINUTES)
WITH RETRACT

在这个例子中：

sensor_data 表代表从 Kafka 接收的数据流，包含时间戳和温度值。 TUMBLE_START 和 TUMBLE_END 函数用于获取每个 TUMBLE 窗口的开始和结束时间。 AVG(temperature) 计算每个窗口内温度的平均值。

当一个新的 watermark 超过当前窗口的结束时间时，Flink 会触发窗口计算，并输出结果。如果后续的数据导致窗口的计算结果发生变化，Flink 会发送一个带有 is_withdrawn 标记为 true 的消息来撤回之前的状态。

请注意，这个例子假设你已经有了一个 Kafka 主题 temperature-topic，并且你的 Flink 环境已经配置好了与 Kafka 的连接。此外，实际使用时需要根据你的具体环境和需求调整表的创建语句和属性。