- 博客(6)
- 收藏
- 关注
原创 Flink-sql-整理-窗口函数
总结区别: 窗口表值函数 : 可用根据选择窗口类型,对原数据基础上增加三列:“window_start”,“window_end”,“window_time” 用在from 之后,类似子查询一样,配合group by函数,选择分组字段(“window_start”,“window_end”,“window_time)配合聚合函数,进行一个窗口输出一行窗口分组函数: 一种淘汰的使用方式,放在group by 之后,进行分组,直接配合聚函数对一个窗口的结果进行输出一行。
2025-03-10 11:34:25
790
原创 Flink学习笔记-----checkpoint的一致性问题
构建的事务对应着 checkpoint,等到checkpoint 真正完成的时候,才把所有对应的结果写入 sink系统中。所谓幂等操作,是说一个操作,可以重复执行很多次,但只导致一次结果更改,也就是说,后面再重复执行就不起作用了。把结果数据先当成状态保存,然后在收到checkpoint 完成的通知时,一次性写入 sink系统。数据计算一次,保证数据的完整,但是不能排除重复计算,导致结果不一致。一批写入,会增大延迟,一批次写入失败,数据会重新写入,导致多次写入。•一条数据不应该丢失,也不应该重复计算。
2024-06-07 17:38:47
862
原创 Flink-时间语义
1 在eventTime事件时间中,Flink接收事件的数据不是严格按照事件时间进行排序,会出现乱序,需要watermark进行处理乱序的一种机制2 一旦出现乱序,如果只根据eventTime决定window的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window去进行计算了,这个特别的机制,就是Watermark。// 自定义周期性时间戳分配器// 延迟一分钟// 当前最大时间戳@Nullable@Override。
2024-06-06 14:22:32
1118
原创 Flink学习笔记----运行架构
Task Slot是静态的概念,是指TaskManager具有的并发执行能力,可以通过参数taskmanager.numberOfTaskSlots进行配置;Task Slot是静态的概念,是指TaskManager具有的并发执行能力,可以通过参数taskmanager.numberOfTaskSlots进行配置;,每提交一个作业会根据自身的情况,都会单独向yarn申请资源,直到作业执行完成,一个作业的失败与否并不会影响下一个作业的正常提交和运行。TaskManager 之间以流的形式进行数据的传输。
2024-06-06 09:55:17
1180
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人