Flink之窗口聚合算子

1.窗口聚合算子

在Flink中窗口聚合算子主要分类两类

  • 滚动聚合算子(增量聚合)
  • 全窗口聚合算子(全量聚合)
1.1 滚动聚合算子

滚动聚合算子一次只处理一条数据,通过算子中的累加器对聚合结果进行更新,当窗口触发时再从累加器中取结果数据,一般使用算子如下:

  • aggregate
  • max
  • maxBy
  • min
  • minBy
  • reduce
  • sum

这里以aggregate算子作为示例

// ... 
// 每10s统计一次每个用户最近30s的行为条数
SingleOutputStreamOperator<Tuple2<String, Integer>> result = watermarked.keyBy(userEvent -> userEvent.getUId())
        .window(SlidingEventTimeWindows.of(Time.seconds(30), Time.seconds(10))) // 参数1:窗口长度 参数2:滑动步长即计算频率
        .aggregate(new AggregateFunction<UserEvent2, Tuple2<String, Integer>, Tuple2<String, Integer>>() {
            // 这里给一个初始值
            @Override
            public Tuple2<String, Integer> createAccumulator() {
                return Tuple2.of("", 0);
            }

            // 在累加器中统计每个用户行为条数(来一条更新一次)
            @Override
            public Tuple2<String, Integer> add(UserEvent2 value, Tuple2<String, Integer> accumulator) {
                Tuple2<String, Integer> result = Tuple2.of(value.getUId() + "-" + value.getName(), accumulator.f1 + 1);
                return result;
            }

            // 将累加器中的更新结果给到getResult方法,输出
            @Override
            public Tuple2<String, Integer> getResult(Tuple2<String, Integer> accumulator) {
                return accumulator;
            }

            // 这个方法在流式计算中可以不用实现,在上下游数据进行合并时需要用到,以spark为例,上有map和下游reduce的计算结果需要合并时需要实现这个方法
            @Override
            public Tuple2<String, Integer> merge(Tuple2<String, Integer> a, Tuple2<String, Integer> b) {
                Tuple2<String, Integer> merged = Tuple2.of(a.f0, a.f1 + b.f1);
                return merged;
            }
        });
// ...

只展示部分代码,冗余代码已省略.
图解如下:
image-20231012101658054

1.2 全窗口聚合算子

全窗口聚合算子会将数据记录在状态容器中,当窗口触发时会将整个窗口中的数据交给聚合函数,根据具体逻辑将这些数据进行计算,常用算子如下:

  • apply
  • process

这里以apply算子为例

// ... 
// 每10s统计一次最近30s每个用户行为发生事件最大两条数据
SingleOutputStreamOperator<UserEvent2> userEventTimeTop2 = keyedStream.window(SlidingEventTimeWindows.of(Time.seconds(30), Time.seconds(10)))
               // 泛型1: 数据数据类型 泛型2: 输出数据类型 泛型3: key类型 泛型4: 窗口类型
               .apply(new WindowFunction<UserEvent2, UserEvent2, String, TimeWindow>() {
                   /**
                    *@Param s 本次传入的key
                    *@Param window 本次传入窗口的各种元信息
                    *@Param input 本次输入的所有数据
                    *@Param out 输出数据
                    **/
                   @Override
                   public void apply(String s, TimeWindow window, Iterable<UserEvent2> input, Collector<UserEvent2> out) throws Exception {
                       // 创建集合接收迭代器中的数据
                       ArrayList<UserEvent2> userEvent2List = new ArrayList<>();
                       // 遍历迭代器,也就是输入数据
                       for (UserEvent2 userEvent2 : input) {
                           // 将数据添加到集合中
                           userEvent2List.add(userEvent2);
                       }
                       // 将集合中的数据根据用户行为发生事件进行排序
                       Collections.sort(userEvent2List, new Comparator<UserEvent2>() {
                           @Override
                           public int compare(UserEvent2 o1, UserEvent2 o2) {
                               // 倒序排序
                               return Integer.parseInt(o2.getTime()) - Integer.parseInt(o1.getTime());
                           }
                       });

                       // 将每个用户行为发生时间最大的两条数据输出
                       for (int i = 0; i < Math.min(userEvent2List.size(), 2); i++) {
                           out.collect(userEvent2List.get(i));
                       }
                   }
               });
// ...

只展示部分代码,冗余代码已省略.
图解如下:
image-20231012101658054

<think>好的,我现在需要回答用户关于Flink算子使用说明和示例的问题。首先,我得回顾一下用户提供的引用内容,确保准确引用相关信息。用户提供了三个引用,分别是关于Flink的数据源算子聚合算子和Transform算子的示例,特别是map操作。 首先,我应该按照用户的要求,结构清晰地分步骤说明。根据系统级指令,需要包括数据源算子、转换算子和数据汇算子,每个部分都要有代码示例,并且正确使用LaTeX格式。比如在解释转换算子时,提到的map、filter、keyBy、reduce等,要给出相应的Java或Scala代码示例。 然后,要确保每个引用的内容被正确引用到。例如,在数据源算子部分,引用[1]和[3]提到了构建环境和fromCollection的使用,应该在相关段落末尾添加[^1]和[^3]。聚合算子部分引用[2]中的内容,需要标注[^2]。 接下来,生成相关问题。问题需要围绕Flink算子的更多细节、最佳实践和应用场景展开,比如数据源算子的类型、转换算子的优化方法等。确保问题与用户提供的引用内容相关,并且能够引导进一步学习。 同时,检查LaTeX语法是否正确,比如行内公式用$...$,独立公式用$$...$$。不过在这个回答中可能数学公式不多,但如果有的话需要注意格式。例如,在解释窗口操作时,如果有时间窗口的表达式,需要用正确的格式。 另外,确保使用中文回答,避免任何Markdown格式,除了代码块需要用三个反引号包裹。代码示例需要根据引用中的内容提供,比如引用[3]中的Scala代码,可以展示map操作,而引用[2]中的聚合算子可以用Java示例。 最后,检查整体结构是否清晰,分为数据源、转换、数据汇三个部分,每个部分都有说明和示例,并且相关问题符合要求。同时,确保所有引用标识正确对应,如引用[1]、[2]、[3]分别在适当的位置标注。</think>### Flink算子使用说明及示例 Flink算子分为**数据源(Source)**、**转换(Transformation)**和**数据汇(Sink)**三类。以下结合示例说明其使用方法: --- #### 一、数据源算子(Source Operators) 数据源算子用于从外部系统(如文件、消息队列、集合等)读取数据。 **示例**:从集合构建数据源(Scala): ```scala val env = ExecutionEnvironment.getExecutionEnvironment val textDataSet: DataSet[String] = env.fromCollection( List("张三,1", "李四,2", "王五,3", "张三,4") ) // 从内存集合生成数据集[^3] ``` 其他常用数据源包括`readTextFile`(文件读取)、`fromElements`(元素集合)等。 --- #### 二、转换算子(Transformation Operators) 转换算子对数据进行处理,核心操作包括: 1. **`map`**:逐条处理数据 ```scala // 将字符串转换为元组(姓名,数值) val tupleData = textDataSet.map { str => val parts = str.split(",") (parts(0), parts(1).toInt) } // 输出如("张三",1) ``` 2. **`filter`**:过滤数据 ```java DataStream<String> filtered = dataStream.filter(value -> value.startsWith("A")); ``` 3. **`keyBy`**:按Key分组 ```java DataStream<Tuple2<String, Integer>> keyedStream = dataStream .keyBy(value -> value.f0); // 按元组第一个字段分组 ``` 4. **`reduce`**:聚合操作 ```java DataStream<Tuple2<String, Integer>> reduced = keyedStream .reduce((v1, v2) -> new Tuple2<>(v1.f0, v1.f1 + v2.f1)); // 对数值求和[^2] ``` 5. **`window`**:窗口计算 ```java dataStream.keyBy(value -> value.id) .window(TumblingEventTimeWindows.of(Time.seconds(10))) // 定义10秒滚动窗口 .sum("count"); // 按窗口统计总和 ``` --- #### 三、数据汇算子(Sink Operators) 数据汇负责将结果输出到外部系统,如文件、数据库或控制台。 **示例**:输出到文件(Java): ```java DataStream<String> result = ...; result.writeAsText("output/path"); // 写入文本文件 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值