
fink相关
文章平均质量分 86
抛砖者
本人酷爱技术,欢迎来探讨技术问题,不管是你不会的,还是我不会的,都要弄明白,不单单是我,你也得明白,哈哈哈哈
展开
-
9. Flink的性能优化
一般需要注意的是TaskManager的内存,因为job的运行主要是在TM上。如上图所示,barrier对齐机制中快的并行度会等待慢的并行度到达之后才能开始做本地的状态快照,在等待的过程中来的数据就会被缓存起来,如果并行度之间相差很大,就会占用很大的内存资源,可能会导致内存溢出,同时它的等待也会迟缓checkpoint的整体时间,还有当数据流被阻塞住处理来不及时会触发反压机制,进而更加限制数据流的流动,导致barrier在的流速更慢,进一步导致checkpoint时间变长,进入恶性循环。原创 2025-03-03 17:36:43 · 1302 阅读 · 0 评论 -
8. Flink-CDC
Flink-cdc主要是用来同步数据库中的数据,它的主要优势在于基于Flink框架直接用Flink Stream Api 或Flink SQL 直接编程,不需要引入第三方组件。原创 2025-02-21 11:44:17 · 573 阅读 · 0 评论 -
7. Flink SQL
它可以关联到时态表中的历史版本数据,主要的应用场景是在维度数据变化比较频繁比如在分钟级别会变化,而且数据也有较严重的延迟现象,这种情况就适合用时态Join,创建维度表为时态表,然后主表join上这个时态表,此时就算主流数据延迟比较多,也同样能关联到已经被修改过的维度数据,案例如下。FlinkSql的窗口聚合中,主要有这么几类窗口,滚动窗口,滑动窗口,累计窗口,其中滚动窗口和滑动窗口的定义和dataStream中的一致,下面介绍下累计窗口,以及这些窗口的关键步骤。的方式设置聚合的窗口。原创 2025-02-21 10:50:36 · 735 阅读 · 0 评论 -
6 Flink Table 和相关概念
它接受数据的插入,更新前,更新后,删除所有操作,它把insert编码为add message,delete编码为 retract massage,update编码为retract message和add message的组合操作,可以通过指定ChangelogMode.all()来实现**(它是默认的输出方式)**如下图所示一张动态表通过user字段分组聚合统计url的点击次数,左侧是输入的数据,对应右侧输出的数据。最终输出的都是以流的方式把数据输出出来,在动态表中的数据转成流的方式输出时,有三种形式。原创 2025-02-14 11:16:31 · 491 阅读 · 0 评论 -
5 Flink的时间和窗口操作
Flink中窗口划分的时候是以时间作为划分标志,在Flink中对于时间有三种不同的语义,分别如下事件产生时间,也就是数据本身带的时间事件摄入时间,是指数据到达Flink程序时当前的系统时间也就是被source模块处理的时间事件处理时间,是指数据被对应算子处理的当前系统时间,这里一般是配合窗口使用,所有是指数据被窗口函数处理时的当时系统时间注意:在Flink1.12版本之后默认的是event-time,之前是process-time。原创 2025-02-10 17:48:57 · 1114 阅读 · 0 评论 -
04. Flink的状态管理与容错机制
本文主要介绍下Flink中的状态种类,Flink的检查点机制,状态后端,端到端的一致性保证还有Flink的任务重启和恢复策略。原创 2025-02-06 16:40:12 · 1225 阅读 · 0 评论 -
3.Flink中重要API的使用
Flink的编程模型可以归结为,创建环境–》定义source—》transformation数据转换—》写sink—》调用execute()方法。此外还需要注意的是Flink数据类型,序列化,反序列化,异步IO编程。原创 2025-01-22 14:46:59 · 1114 阅读 · 0 评论 -
02.Flink内存模型以及细粒度的资源管理
本文主要介绍下Flink对内存是怎么分配的以及相应的配置优化,还会介绍下Flink对资源更细粒度的管理策略。原创 2025-01-21 15:46:51 · 939 阅读 · 0 评论 -
01、flink的原理和安装部署
flink中主要有两个进程,分别是JobMManager和TaskManager,当然了根据flink的部署和运行环境不同,会有一些不同,但是主要的功能是类似的,下面我会讲下聊下,公司用的多的部署方式,基于yarn集群的部署。原创 2025-01-16 14:27:27 · 705 阅读 · 0 评论