Flink 的算子介绍(下)

本文介绍了Flink中处理数据流的不同连接操作,如union、connect、cogroup、join、intervaljoin和broadcast。union用于合并相同类型的数据流,connect处理不同类型的数据流,cogroup和join用于不同数据类型的流合并,并在窗口中进行计算。intervaljoin扩展了join的功能,允许更灵活的时间窗口匹配。broadcast流则用于广播数据到所有分区,常用于维表关联。文中通过示例代码详细解释了每个操作的工作原理和用法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上篇博客中,说了一下转化、分组、聚合,此博客接着连接。连接分为下面:

  • union : 将数据类型相同的流合并成一个流。
  • connect: 将数据类型不同的流合并一个流
  • cogroup: 将数据类型不同的流合并成一个流并写到缓存到窗口中。
  • join: 将数据类型不同的流合并成一个流并写到缓存到窗口中,当窗口被触发之后,两边的数据进行笛卡尔积式的计算。
  • interval join : 处理数据的逻辑基本和 join 差不多,多了一点式可以扩大两个流之间的匹配范围,比如,A 是 stream1 的数据,B 是 stream2 的数据,A.timestamp - interval time <= B.timestamp <= A.timestamp + interval time 的数据。
  • broadcast , 广播流,它会将广播流中的所有数据发送到另外一个流中的所有分区中,然后实现计算逻辑,这一特性可以让我们实现关联维表的功能。处理维表关联的其他方案还有异步I/O。这个会单独写一篇博客来讲解。

下面来展示一下所有 join 类型算子的功能。

union 的用法:

       StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
       DataStreamSource<String> src1 = env.socketTextStream("127.0.0.1", 6666);
       DataStreamSource<String> src2 = env.socketTextStream("127.0.0.1", 8888);
       DataStream<String> union = src1.union(src2);
       union.print("------");
       env.execute("test-union");

两个 source 从 socket 中读书数据,数据类型是 String 类型的,然后将两个流 union 起来,连接起来的数据都是一样的。

connect 的用法。当遇到得到两个 topic 中的数据之后,才能计算的情况下,需要使用 connect 将两个 topic 中的数据取出。下面的例子中,模拟了 inner join on 的效果,也就是取交集的效果,使用了 map state 来存储已经到来的数据,当另外一个流中的相关数据到来时,往下发送。

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        DataStreamSource<String> src1 = env.socketTextStream("127.0.0.1", 6666);
        DataStreamSource<String> src2 = env.socketTextStream("127.0.0.1", 8888);
        KeyedStream<Integer, String> intSrc = src1.map(new RichMapFunction<String, Integer>() {
            @Override
            public Integer map(String record) throws Exception {
                return Integer.parseInt(record);
            }
        }).keyBy(new KeySelector<Integer, String>() {
            @Override
            public String getKey(Integer integer) throws Exception {
                return integer.toString();
            }
        });
        KeyedStream<String, String> keyedSrc2 = src2.keyBy(x -> x);
        /**
         * 模拟 inner join 的逻辑,取交集
         * */
        intSrc.connect(keyedSrc2).process(new CoProcessFunction<Integer, String, Tuple2<String,Integer>>() {
            private ValueState<List<String>> stream1Buffer = null ;
            private ValueState<List<String>> stream2Buffer = null ;

            @Override
            public void open(Configuration parameters) throws Exception {
                super.open(parameters);
                ValueStateDescriptor<List<String>> stream1BufferDesc = new ValueStateDescriptor<List<String>>("Stream1Buffer"
                        , TypeInformation.of(new TypeHint<List<String>>() {})
                );

                ValueStateDescriptor<List<String>> stream2BufferDesc = new ValueStateDescriptor<List<String>>("Stream2Buffer"
                        , TypeInformation.of(new TypeHint<List<String>>() {})
                );
                stream1Buffer = getRuntimeContext().getState(stream1BufferDesc);
                stream2Buffer = getRuntimeContext().getState(stream2BufferDesc);
            }

            @Override
            public void processElement1(Integer record, CoProcessFunction<Integer, String, Tuple2<String, Integer>>.Context context, Collector<Tuple2<String, Integer>> collector) throws Exception {
                join(record.toString() , collector , stream2Buffer , stream1Buffer);
            }

            @Override
            public void processElement2(String record, CoProcessFunction<Integer, String, Tuple2<String, Integer>>.Context context, Collector<Tuple2<String, Integer>> collector) throws Exception {
                join(record , collector , stream1Buffer, stream2Buffer);
            }
            private void join(String record , Collector<Tuple2<String, Integer>> collector , ValueState<List<String>> streamBuffered , ValueState<List<String>> streamOwer) throws IOException {
                List<String> buffered = streamBuffered.value();
                if(Objects.isNull(buffered)){
                    buffered = new CopyOnWriteArrayList<>();
                }
                int idx = Collections.<String>binarySearch(buffered, record);
                if(idx>=0){
                    String s = buffered.get(idx);
                    buffered.remove(idx);
                    collector.collect(new Tuple2<String,Integer>(record+" join " + s , 1));
                }else{
                    buffered.add(record);
                    streamOwer.update(buffered);
                }
            }
        }).print("------");
        env.execute();

join 的用法,JoinFunction 接口中,一次处理两个流中个一条数据,而且是笛卡尔积的方式发送给此接口计算。

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
        WatermarkStrategy<String> ws = WatermarkStrategy.<String>forBoundedOutOfOrderness(Duration.ofSeconds(1L)).withTimestampAssigner((String data , long ts )->{
            return Long.parseLong(data.split(",")[2]);
        });
        KeySelector<String, String> keySelector = new KeySelector<String, String>() {
            @Override
            public String getKey(String s) throws Exception {
                return s.split(",")[0];
            }
        };
        SingleOutputStreamOperator<String> src1 = env.socketTextStream("127.0.0.1", 6666).assignTimestampsAndWatermarks(ws);
        SingleOutputStreamOperator<String> src2 = env.socketTextStream("127.0.0.1", 8888).assignTimestampsAndWatermarks(ws);
        src1.join(src2)
                 // where 方法设置的 selector 是指定 src1 中的 key 值的。
                .where(keySelector)
                // equalTo 方法设置的 selector 是指定 src2 的 key 值得
                .equalTo(keySelector)
                .window(TumblingEventTimeWindows.of(Time.seconds(2)))
                .apply(new JoinFunction<String, String, String>() {
                    @Override
                    public String join(String s, String s2) throws Exception {
                        return s.concat(":").concat(s2);
                    }
                }).print("----");
        env.execute();

join 中得 where 和 equalTo 可以类比成如下 SQL 的功能:

select window() 
from src1 join src2
on src1.keySelector = src2.keySelector 

只要在 2 的秒的窗口中,无论 src1 和 src2 来的数据,都会和窗口中的数据做一次 apply 方法。

interval join 的用法,当发送测试数据的时候,会比上面的 join 早触发 1 秒,因我我设置了 interval 是 1 秒

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

        WatermarkStrategy<String> ws = WatermarkStrategy
                .<String>forBoundedOutOfOrderness(Duration.ofSeconds(1L))
                .withTimestampAssigner((String data ,long ts )->{
            return Long.parseLong(data.split(",")[2]);
        });
        KeyedStream<String, String> src1 = env.socketTextStream("127.0.0.1", 6666)
                .assignTimestampsAndWatermarks(ws)
                .keyBy(new KeySelector<String, String>() {
                    @Override
                    public String getKey(String value) throws Exception {
                        return value.split(",")[0];
                    }
                });

        KeyedStream<String, String> src2 = env.
                socketTextStream("127.0.0.1", 8888)
                .assignTimestampsAndWatermarks(ws).keyBy(new KeySelector<String, String>() {
                    @Override
                    public String getKey(String value) throws Exception {
                        return value.split(",")[0];
                    }
                });

        src1.intervalJoin(src2)
                .between(Time.seconds(-1) , Time.seconds(1))
                .upperBoundExclusive()
                .lowerBoundExclusive()
                .process(new ProcessJoinFunction<String, String, String>() {
                    @Override
                    public void processElement(String left, String right, Context ctx, Collector<String> out) throws Exception {
                        out.collect(left + "-->" + right);
                    }
                }).print();

        env.execute("test-interval-join");

coGroup 算子的用法,我使用的 tumbling time window ,时间使用的 eventtime ,当数据的最大时间戳到达了窗口的最大时间,则窗口被触发,执行 RichCoGroupFunction 接口中的计算。这里我使用了 forBoundedOutOfOrderness 的 watermark ,它里面的参数是 1 ,所有会比正常的窗口晚触发 1 秒。

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
        WatermarkStrategy<String> ws = WatermarkStrategy.<String>forBoundedOutOfOrderness(Duration.ofSeconds(1L)).withTimestampAssigner((String data , long ts )->{
            return Long.parseLong(data.split(",")[1]);
        });
        SingleOutputStreamOperator<String> src1 = env.socketTextStream("127.0.0.1", 6666).assignTimestampsAndWatermarks(ws);
        SingleOutputStreamOperator<String> src2 = env.socketTextStream("127.0.0.1", 8888).assignTimestampsAndWatermarks(ws);
        src1.keyBy(new KeySelector<String, String>() {
                    @Override
                    public String getKey(String s) throws Exception {
                        return s.split(",")[0] ;
                    }
                }).coGroup(src2.keyBy(new KeySelector<String, String>() {
                    @Override
                    public String getKey(String s) throws Exception {
                        return s.split(",")[0] ;
                    }
                })).where(new KeySelector<String, String>() {
                    @Override
                    public String getKey(String src1Data) throws Exception {
                        return src1Data.split(",")[0] ;
                    }
                }).equalTo(new KeySelector<String, String>() {
                    @Override
                    public String getKey(String src2Data) throws Exception {
                        return src2Data.split(",")[0] ;
                    }
                }).window(TumblingEventTimeWindows.of(Time.seconds(2)))
                .apply(new RichCoGroupFunction<String, String, String>() {
                    @Override
                    public void coGroup(Iterable<String> first, Iterable<String> second, Collector<String> collector) throws Exception {
                        String a = "" ;
                        String b = "" ;
                        for(String e : first){
                            a+=e;
                        }
                        for(String e : second){
                            b+=e;
                        }
                        collector.collect(a + ":" + b);
                    }
                })
                .print("-----");
        env.execute();

broadcast 广播流的功能演示,下面的例子是官方文档中的例子,很简单的例子,维表关联有一个数据预加载的问题,可以将维表中的数据加载到类的本地变量中,也可以在广播流中给那些没有关联到维表的数据打标记,然后在后面的算子中将打过标记的数据发送到测流中,进行处理。

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        DataStreamSource<String> src1 = env.socketTextStream("127.0.0.1", 6666);
        DataStreamSource<String> stringDataStreamSource = env.fromElements("green,good", "blue,excellant", "purple,2", "red,4");
        MapStateDescriptor<String,String> mapDesc = new MapStateDescriptor<String,String>("rule" ,String.class,String.class);
        BroadcastStream<String> broadcast = stringDataStreamSource.broadcast(mapDesc);
        src1.connect(broadcast)
                .process(new BroadcastProcessFunction<String,String,String>(){
                    private final MapStateDescriptor<String,String> mapRule =  new MapStateDescriptor<String, String>("rule",String.class , String.class);

                    @Override
                    public void processElement(String value, ReadOnlyContext ctx, Collector<String> out) throws Exception {
                        String s = ctx.getBroadcastState(mapRule).get(value);
                        out.collect("out:"+s);
                    }

                    @Override
                    public void processBroadcastElement(String value, Context ctx, Collector<String> out) throws Exception {
                        ctx.getBroadcastState(mapRule).put(value.split(",")[0],value.split(",")[1]);
                    }
                })
                .print("------");
        env.execute();

打完收工。

<think>好的,我现在需要回答用户关于Flink算子使用说明和示例的问题。首先,我得回顾一下用户提供的引用内容,确保准确引用相关信息。用户提供了三个引用,分别是关于Flink的数据源算子、聚合算子和Transform算子的示例,特别是map操作。 首先,我应该按照用户的要求,结构清晰地分步骤说明。根据系统级指令,需要包括数据源算子、转换算子和数据汇算子,每个部分都要有代码示例,并且正确使用LaTeX格式。比如在解释转换算子时,提到的map、filter、keyBy、reduce等,要给出相应的Java或Scala代码示例。 然后,要确保每个引用的内容被正确引用到。例如,在数据源算子部分,引用[1]和[3]提到了构建环境和fromCollection的使用,应该在相关段落末尾添加[^1]和[^3]。聚合算子部分引用[2]中的内容,需要标注[^2]。 接下来,生成相关问题。问题需要围绕Flink算子的更多细节、最佳实践和应用场景展开,比如数据源算子的类型、转换算子的优化方法等。确保问题与用户提供的引用内容相关,并且能够引导进一步学习。 同时,检查LaTeX语法是否正确,比如行内公式用$...$,独立公式用$$...$$。不过在这个回答中可能数学公式不多,但如果有的话需要注意格式。例如,在解释窗口操作时,如果有时间窗口的表达式,需要用正确的格式。 另外,确保使用中文回答,避免任何Markdown格式,除了代码块需要用三个反引号包裹。代码示例需要根据引用中的内容提供,比如引用[3]中的Scala代码,可以展示map操作,而引用[2]中的聚合算子可以用Java示例。 最后,检查整体结构是否清晰,分为数据源、转换、数据汇三个部分,每个部分都有说明和示例,并且相关问题符合要求。同时,确保所有引用标识正确对应,如引用[1]、[2]、[3]分别在适当的位置标注。</think>### Flink算子使用说明及示例 Flink算子分为**数据源(Source)**、**转换(Transformation)**和**数据汇(Sink)**三类。以下结合示例说明其使用方法: --- #### 一、数据源算子(Source Operators) 数据源算子用于从外部系统(如文件、消息队列、集合等)读取数据。 **示例**:从集合构建数据源(Scala): ```scala val env = ExecutionEnvironment.getExecutionEnvironment val textDataSet: DataSet[String] = env.fromCollection( List("张三,1", "李四,2", "王五,3", "张三,4") ) // 从内存集合生成数据集[^3] ``` 其他常用数据源包括`readTextFile`(文件读取)、`fromElements`(元素集合)等。 --- #### 二、转换算子(Transformation Operators) 转换算子对数据进行处理,核心操作包括: 1. **`map`**:逐条处理数据 ```scala // 将字符串转换为元组(姓名,数值) val tupleData = textDataSet.map { str => val parts = str.split(",") (parts(0), parts(1).toInt) } // 输出如("张三",1) ``` 2. **`filter`**:过滤数据 ```java DataStream<String> filtered = dataStream.filter(value -> value.startsWith("A")); ``` 3. **`keyBy`**:按Key分组 ```java DataStream<Tuple2<String, Integer>> keyedStream = dataStream .keyBy(value -> value.f0); // 按元组第一个字段分组 ``` 4. **`reduce`**:聚合操作 ```java DataStream<Tuple2<String, Integer>> reduced = keyedStream .reduce((v1, v2) -> new Tuple2<>(v1.f0, v1.f1 + v2.f1)); // 对数值求和[^2] ``` 5. **`window`**:窗口计算 ```java dataStream.keyBy(value -> value.id) .window(TumblingEventTimeWindows.of(Time.seconds(10))) // 定义10秒滚动窗口 .sum("count"); // 按窗口统计总和 ``` --- #### 三、数据汇算子(Sink Operators) 数据汇负责将结果输出到外部系统,如文件、数据库或控制台。 **示例**:输出到文件(Java): ```java DataStream<String> result = ...; result.writeAsText("output/path"); // 写入文本文件 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值