flink常用滚动聚合算子

最新推荐文章于 2025-05-07 08:54:12 发布

逆风飞翔的小叔

最新推荐文章于 2025-05-07 08:54:12 发布

阅读量3.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： flink 入门到精通文章标签： flink 大数据 big data

本文链接：https://blog.youkuaiyun.com/congge_study/article/details/122459263

flink 入门到精通专栏收录该内容

40 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了在大数据处理场景中，Flink如何利用KeyedStream进行常见的滚动聚合操作，如最大值、最小值和求和。通过实例展示了读取文件、数据分组、聚合API的使用，并解释了滚动聚合的工作原理。

前言

在很多业务场景下，我们需要对读取到的数据根据业务字段做聚合、统计甚至计算等操作，因此flink提供了基于KeyedStream 的丰富的滚动聚合算子满足多种业务场景下的聚合统计需求

下面来看看几种常用的滚动聚合算子API操作

环境准备

1、准备一个外部文件，用于程序读取

这里在工程的resources目录下，准备一个sensor.txt文件，内容如下

编码实现

需求说明，读取上述文件中的每行数据，按照第一个字段分组，求第三个字段的最大值

import com.congge.source.SensorReading;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apa

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

逆风飞翔的小叔

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

flink中滚动聚合算子-max和maxBy的区别

qq_29494693的博客

11-27

588

代码 public class Test2_RollingAggregation { public static void main(String[] args) throws Exception { StreamExecutionEnvironment executionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment(); executionEnvironment.setParalle

Flink之窗口聚合算子

AnameJL的博客

10-12

1527

Flink窗口聚合算子

参与评论您还未登录，请先登录后发表或查看评论

联邦学习——计算机视觉篇（上）

qq_45672511的博客

08-14

2411

计算机视觉通过利用深度学习工具完成任务，然而，这需要大规模数据集来训练机器学习模型，这给集中式机器学习算法带来了挑战。处理所需的大量计算负载以及与在中央云服务器上存储和处理数据相关的潜在隐私风险使这些算法面临严重压力。为了解决这些问题，联邦学习(FL)作为一种很有前途的解决方案出现了，它允许通过在本地训练模型并交换模型来保护隐私，从而提高整体性能。此外，计算负载分布在多个客户机上，减少了中央服务器的负担。本文详细介绍联邦学习以及其中不同聚合算法的原理和优缺点

Flink API - 键控流转换算子与滚动聚合算子

weixin_44760145的博客

02-19

481

Flink keyBy 和聚合算子

Flink基础系列16-Tranform之聚合操作算子

热门推荐

只是甲的博客

10-21

1万+

文章目录一.聚合操作算子简介1.1 KeyBy1.2 Rolling Aggregation1.3 reduce二.代码实现2.1 maxby2.2 reduce参考: 一.聚合操作算子简介 DataStream里没有reduce和sum这类聚合操作的方法，因为Flink设计中，所有数据必须先分组才能做聚合操作。先keyBy得到KeyedStream，然后调用其reduce、sum等聚合操作方法。（先分组后聚合）常见的聚合操作算子主要有： keyBy 滚动聚合算子Rolling Aggregation

flink常用算子整理

努力工作学习的程序员

05-04

1862

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考。

Flink中聚合算子介绍

tianmlin1的博客

03-27

1216

flink常见聚合算子介绍

flink实战-聊一聊flink中的聚合算子

公众号[大数据技术与应用实战]，分享大数据实战案例

06-07

2368

文章目录前言原理解析实例讲解自定义source自定义聚合函数自定义结果输出函数主流程前言今天我们主要聊聊flink中的一个接口org.apache.flink.api.common.functions.AggregateFunction，这个类可以接在window流之后，做窗口内的统计计算。注意：除了这个接口AggregateFunction，flink中还有一个抽象类AggregateFunction：org.apache.flink.table.functions.AggregateFunctio

Flink DataStream API （八）Flink 聚合算子（Aggregation）

weixin_45417821的博客

04-14

2314

文章目录按键分区（keyBy）简单聚合归约聚合（reduce）直观上看，基本转换算子确实是在“转换”——因为它们都是基于当前数据，去做了处理和输出。而在实际应用中，我们往往需要对大量的数据进行统计或整合，从而提炼出更有用的信息。比如之前 word count 程序中，要对每个词出现的频次进行叠加统计。这种操作，计算的结果不仅依赖当前数据，还跟之前的数据有关，相当于要把所有数据聚在一起进行汇总合并——这就是所谓的“聚合”（Aggregation），也对应着 MapReduce 中的 reduce 操作。按

Flink---5、聚合算子、用户自定义函数、物理分区算子、分流、合流

星光不问赶路人，岁月不负有心人

09-23

905

聚合算子、用户自定义函数、物理分区算子、分流、合流

Flink学习20：聚合算子(sum,max,min)

hzp666的博客

08-12

3467

常见的聚合算子 sum,max,min等聚合算子可以在在keyedStream 流上进行滚动的聚合（即累计的操作），而且同一个 keyedStream 流上只能调用一次聚合算子。

Flink 常用API（2）——转换算子＋聚合算子

WHY的博客

05-13

1012

Flink 常用API（2）——转换算子＋聚合算子包括map、flatmap、reduce、分区等常用操作

Flink开发五步之第三步：Transform算子汇总（直接动手操练吧）

渐宽阁读书小弟

03-11

726

目录： map flatmap filter keyby + reduce 滚动聚合算子（rolling Aggregation） sum() min() max() minBy() maxBy() split和select connect和comap union split和select的新写法：使用processFunction 结合 geiSideOutPut 暂时没学会，后期补 map p...

学习记录590@flink聚合操作reduce算子使用

教练我想学编程

06-04

273

求最大访问量

Flink基础概念及算子

m0_57697768的博客

06-08

4212

无界数据流例如从Kafka这样的消息组件中读取的数据一般，没有数据流结束的定义，即使没有数据也在进行消费。有界数据流有界数据流能够等到所有数据都提取之后再进行处理。有状态流处理将数据的中间状态进行存储，能够重复使用该状态进行处理。Flink的特点Flink计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有Flink分层API//todo Watersensor Pojo对象。

Flink 系列之八 - Data Stream API的中间算子：转换和聚合

最新发布

代码让AI扣

05-07

1219

前面的聚合类算子都是Flink自身实现好的功能，如果min、max、sum方法都不满足用户要求，用户也可以重新实现符合自己聚合要求的算子，自定义聚合类算子，需要使用：reduce。其实去看min、max、sum、minBy和maxBy都是底层实现，都是使用reduce方法实现的。描述定义Reduce函数的基本接口。Reduce函数通过总是取两个元素并将它们合并为一个元素，将元素组组合为一个值。Reduce函数可以用于整个数据集，也可以用于分组数据集。

Flink的常用算子以及实例（详解）(赞)

wukong3158的博客

01-04

1756

map的使用范围就是需要对的那个数据进行处理，并且每次返回一个数据的时候，map就比较方便了。在实际生产中，不可能让我们完成这么简单的操作就行了，所以我们需要更复杂的操作，而reduce就是满足这个条件，它可以让我们自定义聚合的方式。我们来看看reduce的源码reduce需要传入的是一个ReduceFunction的对象，我们再来看看ReduceFunction是个什么东西var1是当前这个分组的状态，var2是新加入的值，而reduce函数体就是我们要进行的操作，返回一个新的状态。

Elasticsearch聚合分页，滚动聚合

qq_45497146的博客

02-02

1672

目前Elasticsearch支持聚合分页（滚动聚合）的目前只有复合聚合(Composite Aggregation)一种。滚动的方式类似于SearchAfter。或者说页面上的“加载更多”;为复合聚合添加聚合的参数为sources默认按自然顺序的升序排序（asc）

链路聚合理论

xy_1212的博客

08-11

577

链路聚合端口绑定技术链路聚合/端口聚合/端口绑定实现的条件：（单臂路由技术）端口聚合又称链路捆绑二层链路聚合命令：总结端口绑定技术链路聚合（Link Aggregation）是将一组物理接口捆绑在一起作为一个逻辑接口来增加带宽的一种方法，又称为多接口负载均衡组（Load sharing Group）或链路聚合组（Link Aggregation Group），通过在两台设备之间建立链路聚合组，可以提供更高的通讯带宽和更高的可靠，链路聚合不仅为设备间通信提供了冗余保护，而且不需要对硬件进行升级。链路聚合

Flink算子 Flink算子

03-19

用户提供了三个引用，分别是关于Flink的数据源算子、聚合算子和Transform算子的示例，特别是map操作。首先，我应该按照用户的要求，结构清晰地分步骤说明。根据系统级指令，需要包括数据源算子、转换算子和数据汇...