自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Flink-sql-整理-窗口函数

总结区别: 窗口表值函数 : 可用根据选择窗口类型,对原数据基础上增加三列:“window_start”,“window_end”,“window_time” 用在from 之后,类似子查询一样,配合group by函数,选择分组字段(“window_start”,“window_end”,“window_time)配合聚合函数,进行一个窗口输出一行窗口分组函数: 一种淘汰的使用方式,放在group by 之后,进行分组,直接配合聚函数对一个窗口的结果进行输出一行。

2025-03-10 11:34:25 790

原创 Linux学习笔记-----1 awk命令小结

概要:awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。

2024-06-11 14:07:43 419

原创 Flink学习笔记-----checkpoint的一致性问题

构建的事务对应着 checkpoint,等到checkpoint 真正完成的时候,才把所有对应的结果写入 sink系统中。所谓幂等操作,是说一个操作,可以重复执行很多次,但只导致一次结果更改,也就是说,后面再重复执行就不起作用了。把结果数据先当成状态保存,然后在收到checkpoint 完成的通知时,一次性写入 sink系统。数据计算一次,保证数据的完整,但是不能排除重复计算,导致结果不一致。一批写入,会增大延迟,一批次写入失败,数据会重新写入,导致多次写入。•一条数据不应该丢失,也不应该重复计算。

2024-06-07 17:38:47 862

原创 Flink-时间语义

1 在eventTime事件时间中,Flink接收事件的数据不是严格按照事件时间进行排序,会出现乱序,需要watermark进行处理乱序的一种机制2 一旦出现乱序,如果只根据eventTime决定window的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window去进行计算了,这个特别的机制,就是Watermark。// 自定义周期性时间戳分配器// 延迟一分钟// 当前最大时间戳@Nullable@Override。

2024-06-06 14:22:32 1118

原创 Flink学习笔记----运行架构

Task Slot是静态的概念,是指TaskManager具有的并发执行能力,可以通过参数taskmanager.numberOfTaskSlots进行配置;Task Slot是静态的概念,是指TaskManager具有的并发执行能力,可以通过参数taskmanager.numberOfTaskSlots进行配置;,每提交一个作业会根据自身的情况,都会单独向yarn申请资源,直到作业执行完成,一个作业的失败与否并不会影响下一个作业的正常提交和运行。TaskManager 之间以流的形式进行数据的传输。

2024-06-06 09:55:17 1180

原创 关于Linux的免密登录总结(转载+总结)(操作向)

关于Linuxssh之间免密登录的小姐(本地生成多个密钥对)

2023-06-11 00:31:03 481

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除