11.Flink ProcessFunction介绍及KeyedProcessFunction实例

1. ProcessFunction简介

  • 转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如我们常用的MapFunction转换算子就无法访问时间戳或者当前事件的事件时间。
  • 基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。
  • Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。例如,Flink SQL就是使用Process Function实现的。
  • Flink提供了8个Process Function:
    • ProcessFunction dataStream
    • KeyedProcessFunction 用于KeyedStream,keyBy之后的流处理
    • CoProcessFunction 用于connect连接的流
    • ProcessJoinFunction 用于join流操作
    • BroadcastProcessFunction 用于广播
    • KeyedBroadcastProcessFunction keyBy之后的广播
    • ProcessWindowFunction 窗口增量聚合
    • ProcessAllWindowFunction 全窗口聚合

2. KeyedProcessFunction简单使用

2.1. Java版本

  • CountWithTimestamp.java

    package com.xiaofan.flinkstudy.keyedprocessfunction;
    
    /**
     *@author   xiaofan
     *@email    594042358@qq.com
     *@date     2020/7/7 16:34
     *@description  实体类,保存在key状态中
     */
    public class CountWithTimestamp {
         
        public String key;
    
        public long count;
    
        public long lastModified;
    }
    
    
  • Splitter.java

    package com.xiaofan.flinkstudy;
    
    import org.apache.flink.api.common.functions.FlatMapFunction;
    import org.apache.flink.api.java.tuple.Tuple2;
    import org.apache.flink.util.Collector;
    import org.apache.flink.util.StringUtils;
    
    
    /**
     *@author   xiaofan
     *@email    594042358@qq.com
     *@date     2020/7/7 16:33
     *@description  通用的FlatMap操作Function
     */
    public class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
         
        @Override
        public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {
         
    
            if(StringUtils.isNullOrWhitespaceOnly(s)) {
         
                System.out.println("invalid line");
                return;
            }
    
            for(String word : s.split(" ")) {
         
                collector.collect(new Tuple2<String, Integer>(word, 1));
            }
        }
    }
    
    
  • ProcessTime.java

    package com.xiaofan.flinkstudy.keyedprocessfunction;
    
    import com.xiaofan.flinkstudy.Splitter;
    import org.apache.flink.api
我的代码要怎么改才能满足题目要求:/*编写Scala代码,使用Flink消费Kafka中Topic为order的数据并进行相应的数据统计计算(订单信息对应表结构order_info, 订单详细信息对应表结构order_detail(来源类型和来源编号这两个字段不考虑,所以在实时数据中不会出现), 同时计算中使用order_info或order_detail表中create_time或operate_time取两者中值较大者作为EventTime, 若operate_time为空值或无此列,则使用create_time填充,允许数据延迟5s, 订单状态order_status分别为1001:创建订单、1002:支付订单、1003:取消订单、1004:完成订单、1005:申请退回、1006:退回完成。 */ /*1、使用Flink消费Kafka中的数据,统计商城实时订单数量(需要考虑订单状态,若有取消订单、申请退回、退回完成则不计入订单数量,其他状态则累加), 将key设置成totalcount存入Redis中。使用redis cli以get key方式获取totalcount值.*/ /*2、在任务1进行的同时,使用侧边流,使用Flink消费Kafka中的订单详细信息的数据, 实时统计商城中销售量前3的商品(不考虑订单状态,不考虑打折),将key设置成top3itemamount存入Redis中( value使用String数据格式,value为前3的商品信息并且外层用[]包裹,其中按排序依次存放商品id:销售量,并用逗号分割)。 使用redis cli以get key方式获取top3itemamount值。 示例如下: top3itemamount:[1:700,42:500,41:100]*/ import org.apache.flink.api.common.eventtime.{SerializableTimestampAssigner, WatermarkStrategy} import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.api.common.state.{MapState, MapStateDescriptor, ValueState} import org.apache.flink.configuration.Configuration import org.apache.flink.connector.jdbc.{JdbcConnectionOptions, JdbcExecutionOptions, JdbcSink, JdbcStatementBuilder} import org.apache.flink.connector.kafka.source.KafkaSource import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer import org.apache.flink.streaming.api.functions.sink.{RichSinkFunction, SinkFunction} import org.apache.flink.streaming.api.functions.KeyedProcessFunction import org.apache.flink.streaming.api.scala._ import org.apache.flink.streaming.connectors.redis.RedisSink import org.apache.flink.streaming.connectors.redis.common.config.FlinkJedisPoolConfig import org.apache.flink.streaming.connectors.redis.common.mapper.{RedisCommand, RedisCommandDescription, RedisMapper} import org.apache.flink.util.Collector import java.sql.PreparedStatement import java.text.SimpleDateFormat import java.time.Duration import java.sql.{Connection, DriverManager, PreparedStatement} import sc
最新发布
03-20
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值