java Flink(三十六)Flink多流合并算子UNION、CONNECT、CoGroup、Join

UNION介绍

  DataStream.union()方法将两条或者多条DataStream合并成一条具有与输入流相同类型的输出DataStream.

  事件合流的方式为FIFO方式。操作符并不会产生一个特定顺序的事件流。union操作符也不会进行去重。每一个输入事件都被发送到了下一个操作符。

说明:

1.union 合并的流的元素必须是相同的

2.union 可以合并多条流

3.union不去重,合流顺序为先进先出

  

  

 具体用法:

DataStream<SensorReading> parisStream = ...
DataStream<SensorReading> tokyoStream = ...
DataStream<SensorReading> rioStream = ...
DataStream<SensorReading> allCities = parisStream
  .union(tokyoStream, rioStream)

CONNECT

CONNECT也是用来合并多个数据流的,它和UNION的功能类似,区别在于:

connect只能连接两个数据流,union可以连接多个数据流。
connect所连接的两个数据流的数据类型可以不一致,union所连接的两个数据流的数据类型必须一致。
两个DataStream经过connect之后被转化为ConnectedStreams,ConnectedStreams会对两个流的数据应用不同的处理方法,且双流之间可以共享状态。
connect经常被应用在对一个数据流使用另外一个流进行控制处理的场景上。

具体用法:

合并流:

// first stream
DataStream<Integer> first = ...
// second stream
DataStream<String> second = ...

// connect streams
ConnectedStreams<Integer, String> connected = first.connect(second);


两种keyby后合并

DataStream<Tuple2<Integer, Long>> one = ...
DataStream<Tuple2<Integer, String>> two = ...

// keyBy two connected streams
ConnectedStreams<Tuple2<Int, Long>, Tuple2<Integer, String>> keyedConnect1 = one
  .connect(two)
  .keyBy(0, 0); // key both input streams on first attribute

// alternative: connect two keyed streams
ConnectedStreams<Tuple2<Integer, Long>, Tuple2<Integer, String>> keyedConnect2 = one
  .keyBy(0)
  .connect(two.keyBy(0));


CoGroup:

该操作是将两个数据流/集合按照key进行group,然后将相同key的数据进行处理,但是它和join操作稍有区别,它在一个流/数据集中没有找到与另一个匹配的数据还是会输出。 

import org.apache.flink.api.common.functions.CoGroupFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;
import org.apache.flink.streaming.api.windowing.assigners.ProcessingTimeSessionWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.triggers.CountTrigger;
import org.apache.flink.util.Collector;
import java.util.Random;
import java.util.concurrent.TimeUnit;

public class CoGroupMain {

    public static void main(String[] args) throws Exception {

        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        final Random random = new Random();
        DataStreamSource<Tuple2<String, String>> source1 = env.addSource(new RichSourceFunction<Tuple2<String, String>>() {
            boolean isRunning = true;
            String[] s1 = {"1,a", "2,b", "3,c", "4,d", "5,e"};
            public void run(SourceContext<Tuple2<String, String>> ctx) throws Exception {
                int size = s1.length;
                while (isRunning) {
                    TimeUnit.SECONDS.sleep(1);
                    String[] s = s1[random.nextInt(size)].split(",");
                    Tuple2 t = new Tuple2();
                    t.f0 = s[0];
                    t.f1 = s[1];
                    ctx.collect(t);
                }
            }
            public void cancel() {
                isRunning = false;
            }
        });

        DataStreamSource<Tuple2<String, String>> source2 = env.addSource(new RichSourceFunction<Tuple2<String, String>>() {
            boolean isRunning = true;
            String[] s1 = {"1,a", "2,b", "3,c", "4,d", "5,e", "6,f", "7,g", "8,h"};
            public void run(SourceContext<Tuple2<String, String>> ctx) throws Exception {
                int size = s1.length;
                while (isRunning) {
                    TimeUnit.SECONDS.sleep(3);
                    String[] s = s1[random.nextInt(size)].split(",");
                    Tuple2 t = new Tuple2();
                    t.f0 = s[0];
                    t.f1 = s[1];
                    ctx.collect(t);
                }
            }
            public void cancel() {
                isRunning = false;
            }
        });

        source1.coGroup(source2)
                .where(new KeySelector<Tuple2<String, String>, Object>() {
                    public Object getKey(Tuple2<String, String> value) throws Exception {
                        return value.f0;
                    }
                }).equalTo(new KeySelector<Tuple2<String, String>, Object>() {
            public Object getKey(Tuple2<String, String> value) throws Exception {
                return value.f0;
            }
        }).window(ProcessingTimeSessionWindows.withGap(Time.seconds(3)))
                .trigger(CountTrigger.of(1))
                .apply(new CoGroupFunction<Tuple2<String, String>, Tuple2<String, String>, Object>() {
                    public void coGroup(Iterable<Tuple2<String, String>> first, Iterable<Tuple2<String, String>> second, Collector<Object> out) throws Exception {
                        StringBuffer stringBuffer = new StringBuffer();
                        stringBuffer.append("DataStream first:\n");
                        for (Tuple2<String, String> value : first) {
                            stringBuffer.append(value.f0 + "=>" + value.f1 + "\n");
                        }
                        stringBuffer.append("DataStream second:\n");
                        for (Tuple2<String, String> value : second) {
                            stringBuffer.append(value.f0 + "=>" + value.f1 + "\n");
                        }
                        out.collect(stringBuffer.toString());
                    }
                }).print();
        env.execute();
    }
}

 Join

 flink中常见的join有四个:

  1. Tumbling Window Join 


    å¨è¿éæå¥å¾çæè¿°
  2. Sliding Window Join

    å¨è¿éæå¥å¾çæè¿°
  3. Session Window Join

    å¨è¿éæå¥å¾çæè¿°
  4. Interval Join

Join的编程模型为:

stream.join(otherStream)
    .where(<KeySelector>)
    .equalTo(<KeySelector>)
    .window(<WindowAssigner>)
    .apply(<JoinFunction>)

Tumbling Window Join的实例:

import org.apache.flink.api.common.functions.JoinFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.triggers.CountTrigger;

public class TumblingMain {

    public static void main(String[] args) throws Exception {

        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置时间语义
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

        DataStream<Tuple2<String, String>> source1 = env.socketTextStream("192.168.6.23", 9022)
                .map(new MapFunction<String, Tuple2<String, String>>() {
                    public Tuple2<String, String> map(String value) throws Exception {
                        return Tuple2.of(value.split(" ")[0], value.split(" ")[1]);
                    }
                });
        DataStream<Tuple2<String, String>> source2 = env.socketTextStream("192.168.6.23", 9023)
                .map(new MapFunction<String, Tuple2<String, String>>() {
                    public Tuple2<String, String> map(String value) throws Exception {
                        return Tuple2.of(value.split(" ")[0], value.split(" ")[1]);
                    }
                });

        source1.join(source2)
                .where(new KeySelector<Tuple2<String, String>, Object>() {
                    public Object getKey(Tuple2<String, String> value) throws Exception {
                        return value.f0;
                    }
                })
                .equalTo(new KeySelector<Tuple2<String, String>, Object>() {
                    public Object getKey(Tuple2<String, String> value) throws Exception {
                        return value.f0;
                    }
                })
                .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
                .trigger(CountTrigger.of(1))
                .apply(new JoinFunction<Tuple2<String, String>, Tuple2<String, String>, Object>() {
                    public Object join(Tuple2<String, String> first, Tuple2<String, String> second) throws Exception {
                        if (first.f0.equals(second.f0)) {
                            return first.f1 + " " + second.f1;
                        }
                        return null;
                    }
                }).print();
        env.execute();
    }
}

Interval Join

Interval Join会将两个数据流按照相同的key,并且在其中一个流的时间范围内的数据进行join处理。通常用于把一定时间范围内相关的分组数据拉成一个宽表。我们通常可以用类似下面的表达式来使用interval Join来处理两个数据流

 Interval Join变成模型:

orangeStream
    .keyBy(<KeySelector>)
    .intervalJoin(greenStream.keyBy(<KeySelector>))
    .between(Time.milliseconds(-2), Time.milliseconds(1))
    .process (new ProcessJoinFunction<Integer, Integer, String(){

        @Override
        public void processElement(Integer left, Integer right, Context ctx, Collector<String> out) {
            out.collect(first + "," + second);
        }
    });

<think>好的,用户想了解Flink的常用算子及其用法。首先,我需要回忆Flink的核心算子,并按照分类来组织,比如数据转换、合并、分区等。记得用户之前提到的引用内容中有提到23种常用算子,可能需要参考这些分类。 首先,Flink算子可以分为几大类:数据转换(如map、flatMap、filter)、数据合并(如unionconnect)、数据分区(如keyBy、shuffle)、窗口操作(如window、join)等。每个类别下需要列出具体的算子,并给出示例代码,这样用户更容易理解。 接下来,要注意用户提到的格式要求,行内数学表达式用$...$,独立公式用$$...$$,但这个问题可能更涉及代码示例,所以需要确保代码块正确使用反引号包裹,并标明语言类型。比如Python示例需要用python标签。 然后,每个算子需要简要说明其作用和使用场景,例如map用于一对一转换,flatMap用于一对。同时,代码示例要简洁明了,比如map的例子可以是简单的数值转换,flatMap可以是拆分字符串。 用户可能还关心算子的链式操作,比如startNewChain和disableChaining,这些优化技巧也需要提及。另外,侧输出(Side Output)也是一个重要概念,可以举例说明如何将不同数据分处理。 关于窗口操作,需要提到时间窗口和计数窗口,比如滚动窗口和滑动窗口的区别,并给出相应的代码片段。例如,TumblingProcessingTimeWindows表示滚动处理时间窗口。 还要注意用户提到的引用文献,引用[1]和[2]中提到的union、window joinconnect算子需要包含在回答中。例如,union用于合并connect则用于连接不同类型的,处理后再分开。 最后,生成相关问题需要考虑用户可能想深入的方向,比如性能优化、实际应用案例、状态管理或容错机制。这样能帮助用户进一步学习。 需要检查是否所有示例代码都符合Flink的DataStream API,特别是Java和Python的不同语法。用户可能需要语言的示例,但根据问题描述,示例可能以Python为主,或者需要明确说明语言类型。 总结下来,回答的结构应该是先分类介绍常用算子,每个算子给出说明和代码示例,最后附上相关问题。确保引用标记正确,如[^1][^2]放在对应的位置,比如在unionconnect算子说明后。</think>以下为Flink常用算子的分类说明及使用示例,结合DataStream APIJava/Python)实现: --- ### 一、基础转换算子 1. **Map** - 作用:一对一转换数据元素 - 示例: ```java DataStream<Integer> numbers = env.fromElements(1, 2, 3); numbers.map(x -> x * 2); // 输出2,4,6 ``` 2. **FlatMap** - 作用:一对转换,可输出0或个元素 - 示例: ```python data_stream.flat_map(lambda x: x.split(" ")) # 拆分字符串为单词 ``` 3. **Filter** - 作用:过滤不符合条件的元素 - 示例: ```java dataStream.filter(x -> x.contains("error")); // 筛选含error的日志 ``` --- ### 二、合并算子 4. **Union** - 作用:合并个同类型数据 - 示例: ```python stream1.union(stream2, stream3) # 合并3个[^1] ``` 5. **Connect** - 作用:连接不同类型数据,形成ConnectedStreams - 示例: ```java ConnectedStreams<String, Integer> connected = stream1.connect(stream2); connected.map(new CoMapFunction<>() { public String map1(String value) { return value.toUpperCase(); } public Integer map2(Integer value) { return value * 10; } }); ``` --- ### 三、数据分区算子 6. **KeyBy** - 作用:按指定键进行逻辑分区 - 示例: ```python data.key_by(lambda x: x[0]) # 按元组第一个字段分区 ``` 7. **Shuffle** - 作用:随机均匀分配数据 - 示例: ```java dataStream.shuffle(); ``` --- ### 四、窗口操作 8. **Tumbling Window** - 作用:固定大小的无重叠窗口 - 示例: ```java dataStream.keyBy(0) .window(TumblingProcessingTimeWindows.of(Time.seconds(5))); ``` 9. **Sliding Window** - 作用:带滑动步长的窗口 - 示例: ```python data.key_by("user_id").window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5))) ``` --- ### 五、高级功能 10. **Side Output** - 作用:将特殊数据分处理 - 示例: ```java OutputTag<String> lateDataTag = new OutputTag<>("late-data"); SingleOutputStreamOperator mainStream = stream.process(new ProcessFunction() { public void processElement(...) { if (isLateData(...)) { ctx.output(lateDataTag, value); } } }); ``` 11. **Iterate** - 作用:创建迭代循环 - 示例: ```java IterativeStream<Integer> iteration = numbers.iterate(); iteration.closeWith(iteration.filter(x -> x > 0)); // 持续处理正数[^1] ``` --- ### 六、性能优化算子 12. **Caching** - 作用:缓存数据集减少重复计算 - 示例: ```python cached_data = data_stream.cache() ``` --- ### 七、输出算子 13. **AddSink** - 作用:自定义输出到外部系统 - 示例: ```java stream.addSink(new ElasticsearchSink<>(config, transportClientProvider)); ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值