flink多流结合的方式
1. join:
可以连接两个不同类型的数据流;将两个流相同key的数据分配到同一个窗口的篮子中;窗口结束时,两个篮子的数据会做笛卡尔积计算,形成一个pair,然后对pair数据进行joinFunction的操作;因为window的数据都是在内存中,所以,当某个key对应的数据很大的时候可能造成OOM。
// Join 操作侧重于对数据对的处理
val joined: JoinedStreams[(String, Int), (String, String)] = stream1.join(stream3)
val joinResult: DataStream[(String, String)] = joined
.where(_._1)
.equalTo(_._1)
.window(TumblingProcessingTimeWindows.of(Time.seconds(1)))
.apply(new JoinFunction[(String, Int), (String, String), (String, String)] {
override def join(in1: (String, Int), in2: (String, String)): (String, String) =???
})
2. CoGroup
也是可以连接两个不同类型的数据源,但是是将两个流相同key的数据分到同一个分区(不能匹配上的数据也放到另一个分区);然后对分区内的数据分组做CoGroupFunction做处理。
// CoGroup 侧重于对数据组的处理
private val group1: CoGroupedStreams[(String, Int), (String, Int)] = stream1.coGroup(stream2)
group1.where(_._

本文详细介绍了Apache Flink中处理多流结合的四种方式:Join操作用于数据对的处理,CoGroup适用于数据组的处理,Union用于合并相同类型的数据流而不去重,而BroadcastState则利用广播状态处理两个事件流。针对每种操作,文章阐述了其工作原理和使用场景,并给出了示例代码。
最低0.47元/天 解锁文章
3487

被折叠的 条评论
为什么被折叠?



