Flink使用滚动窗进行JSON事件计数

本文介绍如何使用Flink进行JSON事件的滚动窗口计数,从Kafka接收JSON事件,通过自定义的AggregateFunction和WindowFunction进行5秒窗口的事件数量统计。

Flink使用滚动窗进行JSON事件计数

从Kafka接收Json事件进行反序列化,根据事件类型字符串进行5秒的滚动窗事件数目统计。

json事件反序列化请参见前面文章。

定义计数累积函数

定义AggregateFunction和WindowFunction

方法一 重载AggregateFunction的Add

    public static class MyCountAggregate implements AggregateFunction<SecEvent, Long, Long> {
   
   
        @Override
        public Long createAccumulator() {
   
   
            /*访问量初始化为0*/
            return 0L;
        }
        @Override
        public Long add(SecEvent value, Long accumulator) {
   
   
            /*访问量直接+1 即可*/
            return accumulator+1;
        }
        @Override
        public Long getResult(Long accumulator) {
   
   
            return accumulator;
        }
        /*合并两个统计量*/
        @Override
        public Long merge(Long a, Long b) {
   
   
            return a+b;
        }
    }
    
    public static class MyCountWindowFunction implements WindowFunction<Long,String,String, TimeWindow> {
   
   
        @Override
        public void apply(String eventType, TimeWindow window, Iterable<Long> input, Collector<String> out) throws Exception {
   
   
                /* 输出 */
                /*out.collect("productId"productId,window.getEnd(),input.iterator().next()));*/
                out.collect("----------------窗口时间:"+window.getEnd());
                out.collect("事件: " + eventType + " 数目: "+ input.iterator().next());
            
<think>我们正在讨论FlinkSQL中的滑动窗口(HOP)的使用方法。根据引用[1]和引用[3],FlinkSQL提供了滑动窗口函数HOP()。滑动窗口有两个参数:窗口大小和滑动步长。在WindowingTVF(表值函数)中,我们可以使用TABLE(HOP(...))来定义滑动窗口,并在GROUPBY子句中使用窗口的起始和结束时间以及分组键。引用[3]中给出了一个具体的示例:1.创建数据源表,其中包含时间属性字段(通过计算列和watermark定义)。2.使用HOP函数定义滑动窗口,并指定时间属性字段、滑动步长和窗口大小。3.在GROUPBY子句中按窗口起始时间、窗口结束时间和维度字段进行分组,然后进行聚合计算。下面我们将按照这个思路,给出一个详细的使用示例,并解释每个部分的作用。步骤:1.定义数据源表(SourceTable):通常需要包含一个时间戳字段,并声明为事件时间属性(使用watermark)。2.使用HOP窗口函数:在查询中,使用TABLE(HOP(TABLE表名,DESCRIPTOR(时间属性字段),滑动步长,窗口大小))来生成滑动窗口。3.进行分组聚合:按窗口的起始时间(window_start)、结束时间(window_end)以及分组键进行分组,然后执行聚合操作。示例:假设我们有一个数据流,包含用户ID(user_id)、产品维度(dim)、交易金额(price)和时间戳(ts)。我们想要每2分钟滑动一次,计算每个产品维度在过去6分钟内的用户数(去重计数)。注意:在FlinkSQL中,时间间隔的表示方法为:INTERVAL'数值'时间单位(如:INTERVAL'2'MINUTE)。创建数据源表:```sqlCREATETABLEsource_table(dimSTRING,user_idBIGINT,priceBIGINT,tsBIGINT,--事件时间的时间戳(毫秒)row_timeASTO_TIMESTAMP(FROM_UNIXTIME(ts/1000)),--将毫秒时间戳转换为TIMESTAMP类型(假设ts是毫秒,先转成秒)WATERMARKFORrow_timeASrow_time-INTERVAL'5'SECOND--定义watermark,允许5秒的延迟)WITH('connector'='kafka',--这里以kafka为例,也可以是其他连接器如'socket''topic'='input_topic','properties.bootstrap.servers'='localhost:9092','format'='json');```使用滑动窗口查询:```sqlSELECTdim,COUNT(DISTINCTuser_id)asuv,window_start,window_endFROMTABLE(HOP(TABLEsource_table,DESCRIPTOR(row_time),INTERVAL'2'MINUTE,--滑动步长为2分钟INTERVAL'6'MINUTE--窗口大小为6分钟))GROUPBYdim,window_start,window_end;```解释:-`HOP`函数的第一个参数是表名(这里是source_table),第二个参数是时间属性列(row_time),第三个参数是滑动步长(2分钟),第四个参数是窗口大小(6分钟)。-该查询会每2分钟滑动一次,每次计算过去6分钟内每个dim的唯一用户数。-窗口的起始和结束时间可以通过`window_start`和`window_end`来获取,并可以在SELECT子句和GROUPBY子句中使用。注意:在Flink1.13及以上版本中,推荐使用WindowingTVF(即TABLE(HOP(...)))的方式,因为这种方式功能更强大,且支持在窗口后进行多维度聚合(比如除了窗口时间外,还可以按其他字段分组)。另外,引用[2]提到FlinkSQL实现基于eventtime的滑动窗口,所以这里我们使用事件时间(row_time)作为窗口的时间依据,并定义了watermark。关于窗口的起始和结束时间的表示:在结果中,window_start和window_end是TIMESTAMP类型,表示窗口的开始和结束时间(左闭右开区间)。如果需要在结果中展示为毫秒时间戳,可以使用UNIX_TIMESTAMP函数转换,如引用[3]中的示例:```sqlSELECTdim,UNIX_TIMESTAMP(CAST(window_startASSTRING))*1000aswindow_start,UNIX_TIMESTAMP(CAST(window_endASSTRING))*1000aswindow_end,COUNT(DISTINCTuser_id)asuv...--其余部分相同```以上就是一个完整的FlinkSQL滑动窗口使用示例。§§相关问题§§1.FlinkSQL中滑动窗口滚动窗口有什么区别?2.如何设置滑动窗口的步长大于窗口大小?这样设置有什么意义?3.FlinkSQL中滑动窗口的聚合结果如何输出?是每次滑动都会输出结果吗?4.在滑动窗口使用事件时间时,如何处理迟到数据?</think>### Fllink SQL 滑动窗口使用方法详解 在 Flink SQL 中,滑动窗口(HOP)通过`HOP()`函数实现,其核心语法结构为: ```sql HOP(TABLE 数据表, DESCRIPTOR(时间属性字段), 滑动步长, 窗口大小) ``` #### 关键参数说明 | 参数 | 说明 | 示例 | |------|------|------| | **时间属性字段** | 定义事件时间的字段 | `row_time` | | **滑动步长** | 窗口每次滑动的间隔 | `INTERVAL '2' SECOND` | | **窗口大小** | 单个窗口覆盖的时间范围 | `INTERVAL '6' SECOND` | #### 完整使用示例 ```sql -- 1. 创建含时间属性的源表 CREATE TABLE source_table ( dim STRING, user_id BIGINT, price BIGINT, `timestamp` BIGINT, -- 原始时间戳(毫秒) row_time AS TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`/1000)), -- 转为TIMESTAMP类型 WATERMARK FOR row_time AS row_time - INTERVAL '5' SECOND -- 定义水位线 ) WITH ( 'connector' = 'kafka', 'topic' = 'transactions', 'properties.bootstrap.servers' = 'localhost:9092', 'format' = 'json' ); -- 2. 执行滑动窗口聚合 SELECT dim, HOP_START(row_time, INTERVAL '2' SECOND) AS window_start, -- 窗口起始时间 HOP_END(row_time, INTERVAL '2' SECOND, INTERVAL '6' SECOND) AS window_end, -- 窗口结束时间 COUNT(DISTINCT user_id) AS uv_count FROM TABLE( HOP( TABLE source_table, DESCRIPTOR(row_time), INTERVAL '2' SECOND, -- 滑动步长2秒 INTERVAL '6' SECOND -- 窗口大小6秒 ) ) GROUP BY dim, window_start, window_end; ``` #### 执行结果示例 ``` dim | window_start | window_end | uv_count -----|-----------------------|-----------------------|--------- A | 2023-01-01 08:00:00 | 2023-01-01 08:00:06 | 15 A | 2023-01-01 08:00:02 | 2023-01-01 08:00:08 | 18 B | 2023-01-01 08:00:00 | 2023-01-01 08:00:06 | 9 ``` #### 核心特性说明 1. **窗口重叠机制** 每个事件会属于多个窗口窗口大小/滑动步长)个窗口。如示例中: - 窗口大小=6秒,滑动步长=2秒 → 每个事件属于3个窗口 - 窗口计算公式:$N = \frac{\text{窗口大小}}{\text{滑动步长}}$ 2. **时间语义支持** 必须使用**事件时间**(Event Time),需配合`WATERMARK`定义: ```sql WATERMARK FOR row_time AS row_time - INTERVAL '5' SECOND ``` 3. **输出触发机制** 每次窗口滑动都会触发新结果输出(区别于滚动窗口仅结束时输出)[^1][^3]。 4. **TVF 表值函数** 需用`TABLE(HOP(...))`包裹函数,Flink 1.14+ 支持流批统一处理[^3]。 #### 典型应用场景 1. 每5分钟统计过去1小时的独立用户数(金融风控) 2. 每10秒统计过去30秒的交易额峰值(实时监控) 3. 每1分钟统计过去5分钟的异常请求率(网络安全)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值