flink多流结合的方式

最新推荐文章于 2025-08-20 22:21:49 发布

原创

最新推荐文章于 2025-08-20 22:21:49 发布 · 1.8k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#flink

本文详细介绍了Apache Flink中处理多流结合的四种方式：Join操作用于数据对的处理，CoGroup适用于数据组的处理，Union用于合并相同类型的数据流而不去重，而BroadcastState则利用广播状态处理两个事件流。针对每种操作，文章阐述了其工作原理和使用场景，并给出了示例代码。

flink多流结合的方式

1. join：

可以连接两个不同类型的数据流；将两个流相同key的数据分配到同一个窗口的篮子中；窗口结束时，两个篮子的数据会做笛卡尔积计算，形成一个pair，然后对pair数据进行joinFunction的操作；因为window的数据都是在内存中，所以，当某个key对应的数据很大的时候可能造成OOM。

// Join 操作侧重于对数据对的处理
 
  val joined: JoinedStreams[(String, Int), (String, String)] = stream1.join(stream3)

  val joinResult: DataStream[(String, String)] = joined
    .where(_._1)
    .equalTo(_._1)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(1)))
    .apply(new JoinFunction[(String, Int), (String, String), (String, String)] {
      override def join(in1: (String, Int), in2: (String, String)): (String, String) =???
    })

2. CoGroup

也是可以连接两个不同类型的数据源，但是是将两个流相同key的数据分到同一个分区（不能匹配上的数据也放到另一个分区）；然后对分区内的数据分组做CoGroupFunction做处理。

// CoGroup 侧重于对数据组的处理

  private val group1: CoGroupedStreams[(String, Int), (String, Int)] = stream1.coGroup(stream2)

  
   group1.where(_._

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

k_wzzc

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据Flink（四十二）：BroadcastState

Lansonli（蓝深李）的博客

05-03

3487

在开发过程中，如果遇到需要下发/广播配置、规则等低吞吐事件流到下游所有 task 时，就可以使用 Broadcast State。Broadcast State 是 Flink 1.5 引入的新特性。下游的 task 接收这些配置、规则并保存为 BroadcastState, 将这些配置应用到另一个数据流的计算中。

Flink 多流转换（四）窗口联结（Window Join）

weixin_45417821的博客

04-19

2253

文章目录窗口联结的调用窗口联结实例 Flink 为这种场景专门提供了一个窗口联结（window join）算子，可以定义时间窗口，并将两条流中共享一个公共键（key）的数据放在窗口中进行配对处理。类似于SQL中的Join 窗口联结的调用窗口联结在代码中的实现，首先需要调用 DataStream 的.join()方法来合并两条流，得到一个 JoinedStreams；接着通过.where()和.equalTo()方法指定两条流中联结的 key；然后通过.window()开窗口，并调用.apply()传入联结

参与评论您还未登录，请先登录后发表或查看评论

Flink之状态编程BroadcastState的使用

蔡政洁的博客

04-03

986

目录（1）BroadcastState（2）BroadcastState代码开发（1）BroadcastState 广播状态被引入以支持这样的用例:来自一个流的一些数据需要广播到所有下游任务，在那里它被本地存储，并用于处理另一个流上的所有传入元素。作为广播状态自然适合出现的一个例子，我们可以想象一个低吞吐量流，其中包含一组规则，我们希望根据来自另一个流的所有元素对这些规则进行评估。 Broadcast State使得Flink 用户能够以容错、一致、可扩缩容地将来自广播的低吞吐的事件流数据存储下来，

Flink Broadcast State实用指南

Matrix42

06-27

3662

从1.5.0开始，Flink提供了一种新的State类型，称为Broadcast State。在这篇文章中，我们将解释什么是Broadcast State，并展示如何将其应用于评估事件流上的动态模式的应用的示例。我们将向您介绍处理步骤和源代码，以实现此应用。什么是Broadcast State？ Broadcast State可用于以特定方式组合和联合处理两个事件流。第一个流的事件被广播到一个算...

大数据Flink BroadcastState

赵广陆

09-13

512

目录1 BroadcastState介绍2 需求-实现配置动态更新3 编码步骤4 代码实现 1 BroadcastState介绍在开发过程中，如果遇到需要下发/广播配置、规则等低吞吐事件流到下游所有 task 时，就可以使用 Broadcast State。Broadcast State 是 Flink 1.5 引入的新特性。下游的 task 接收这些配置、规则并保存为 BroadcastState, 将这些配置应用到另一个数据流的计算中。 ⚫ 场景举例动态更新计算规则: 如事件流需要根据最新的规

Flink 多流转换

mengxianglong123的博客

04-01

3057

概述无论是基本的简单转换和聚合，还是基于窗口的计算，我们都是针对一条流上的数据进行处理的。而在实际应用中，可能需要将不同来源的数据连接合并在一起处理，也有可能需要将一条流拆分开，所以经常会有对多条流进行处理的场景。本章我们就来讨论 Flink 中对多条流进行转换的操作。简单划分的话，多流转换可以分为“分流”和“合流”两大类。目前分流的操作一般是通过侧输出流（side output）来实现，而合流的算子比较丰富，根据不同的需求可以调用union、connect、join以及 coGroup等接口进

Flink实战--多流合并

zg_hover的专栏

05-29

5051

本文介绍Flink的流合并操作。在Flink中，流的合并操作算子有：Union和Connect等。本文主要介绍这个两个算子的使用方法

Flink-多流转换(Union、Connect、Join)

迷雾总会解

02-20

3788

对于连接流 ConnectedStreams 的处理操作，需要分别定义对两条流的处理转换，因此接口中就会有两个相同的方法需要实现，用数字“1”“2”区分，在两条流中的数据到来时分别调用。关于两条流的连接，还有一种比较特殊的用法：DataStream 调用.connect()方法时，传入的参数也可以不是一个 DataStream，而是一个“广播流”（BroadcastStream），这时合并两条流得到的就变成了一个“广播连接流”（BroadcastConnectedStream）。

Flink维表Join实践

鸣宇淳的专栏

06-01

5011

这个文章是根据【实时数仓篇】基于 Flink 的典型 ETL 场景实现写的，对视频中讲解的四种维表Join分别实现了一些Demo。常见的维表Join方式有四种：预加载维表热存储维表广播维表 Temporal table function join 下面分别使用这四种方式来实现一个join的需求，这个需求是：一个主流中数据是用户信息，字段包括用户姓名、城市id；维表是城市数据，字段包括城市ID、城市名称。要求用户表与城市表关联，输出为：用户名称、城市ID、城市名称。 1、预加载维表通过定义

Flink多流关联(超过两个实时流)

u013939918的博客

04-11

9618

Flink怎么实现多个实时流的关联。官方文档，很多教程给的Demo都是两个实时流的关联。 1. 分析业务数据源，很多需要多个流的join的场景是伪命题，用union即可。 2. union + group by ，在基于key的流中可以取代join。优势：在join 发生数据倾斜或者反压，很难 checkpoint时，用union可以回避这个问题。 3. 例如三个流join，可以...

基于开源的flink对其实时sql进行扩展；主要实现了流与维表的join

08-08

基于开源的flink，对其实时sql进行扩展；主要实现了流与维表的join

Flink使用Broadcast State实现流处理配置实时更新

hellojoy的博客

07-17

4352

Broadcast State是Flink支持的一种Operator State。使用Broadcast State，可以在Flink程序的一个Stream中输入数据记录，然后将这些数据记录广播（Broadcast）到下游的每个Task中，使得这些数据记录能够为所有的Task所共享，比如一些用于配置的数据记录。这样，每个Task在处理其所对应的Stream中记录的时候，读取这些配置，来满足实际数据...

Flink之join多流合并