- 博客(105)
- 收藏
- 关注
原创 Flink 时间和窗口
在事件时间语义下,我们不依赖系统时间,而是基于数据自带的时间戳去定义了一个时钟,用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟,它的前进是靠数据的时间戳来驱动的。我们可以把时钟也以数据的形式传递出去,告诉下游任务当前时间的进展;而且这个时钟的传递不会因为窗口聚合之类的运算而停滞。一种简单的想法是,在数据流中加入一个时钟标记,记录当前的事件时间;这个标记可以直接广播到下游,当下游任务收到这个标记,就可以更新自己的时钟了。
2023-03-21 19:58:32
751
原创 Flink DataStream 流处理 APi
也就是说,这个方法会根据当前运行的方式,自行决定该返回什么样的运行环境。需要在调用时指定 JobManager 的主机名和端口号,并指定要在集群中运行的 Jar 包。类的对象,这是所有 Flink 程序的基础。在代码中创建执行环境的方式,就是调用这个类的静态方法,具体有以下三种。这种“智能”的方式不需要我们额外做判断,用起来简单高效,是最常用的一种创建执行环境的方式。在之前的 Flink 版本中,批处理的执行环境与流处理类似,是调用类。Flink 代码中通用的添加 Source 的方式,是调用执行环境的。
2023-03-14 20:13:35
573
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人