
Flink
文章平均质量分 88
我是一个Flink的初学者,但我希望和大家一起学习和成长。在这个专栏中,我们将从零开始,探索Apache Flink的基础知识、流处理技术、窗口操作和实战案例。无论你是刚入门还是想深入了解Flink,这里都有适合你的内容。让我们一起解锁Flink的强大功能,携手进步!
Luckyforever%-
微信公众号:BigDataWise,欢迎大家关注,大数据相关问题可以及时沟通,一起DayDayUp
展开
-
Flink实战 - 搭建HA高可用集群
一、部署说明原创 2024-07-02 23:43:32 · 1797 阅读 · 7 评论 -
FlinkSQL Regular Join之 Left Join
基本同样的代码,离线计算数据结果皆一致,但是流式Join中差距为何如此大,我的看法是V1中进行left join的主从表本质虽然是一张源表,但都是在筛选之后才进行的关联,筛选条件完全不同,就相当于生成2张完全不一样的临时表,左表是驱动表。原创 2024-07-08 22:47:23 · 1438 阅读 · 1 评论 -
Flink 时间属性及 WATERMARK 水印
水位线的生成是一个基于事件时间的机制,主要目的是处理乱序数据,确保窗口计算的准确性。通过设定一个最大延迟时间,水位线可以有效地处理乱序事件,并在适当的时间点触发窗口计算。原创 2024-08-03 01:36:20 · 1368 阅读 · 0 评论 -
Flink 之 滚动窗口/滑动窗口/会话窗口/OVER窗口
数据处理方式流式计算:数据是连续不断地到达的,OVER窗口函数会在数据流中实时地计算窗口结果。每当新数据到达时,窗口计算会实时更新。批计算:数据是一次性读取并处理的,OVER窗口函数会在整个数据集上一次性计算窗口结果。所有数据都读取完毕后,窗口计算才会开始。计算延迟流式计算:适用于需要低延迟、实时更新的场景。计算结果会随着数据的到达实时更新。批计算:适用于数据量较大、对计算延迟要求不高的场景。计算结果在所有数据读取完毕后一次性计算。状态管理流式计算:需要持续管理状态,因为数据是不断到达的。原创 2024-08-05 18:09:11 · 2964 阅读 · 0 评论 -
Flink 之 级联窗口计算
在 Flink 中,级联窗口是指多个窗口之间存在包含或重叠关系的数据处理模式。它允许我们在不同的时间范围内对数据进行聚合和分析。简单来说,就是将数据流分割成多个时间段(窗口)来处理,这些窗口可以是嵌套的,也可以是重叠的。想象一下,我们有一个实时数据流,包含用户的点击数据。我们可能希望在不同的时间粒度上进行分析,比如每分钟、每小时和每天的点击量统计。级联窗口允许我们同时进行这些不同时间粒度的统计,而不需要多次遍历数据,这样可以复用中间计算结果,避免重复消费数据。原创 2024-08-09 11:28:35 · 952 阅读 · 0 评论 -
Flink 之 TopN 以及窗口TopN
在Flink中,TopN计算是指从数据流中选取前N个元素,通常根据某个指标进行排序。TopN计算可以在全局范围内进行,也可以在窗口内进行。窗口TopN计算是指在特定的时间窗口或计数窗口内进行TopN计算。这些操作在实时数据分析、监控和推荐系统中非常常见。原创 2024-08-13 16:48:41 · 570 阅读 · 0 评论