Flink 状态管理

本文介绍了Flink的状态管理,包括Keyed State和Operator State的区别,以及Managed State和Raw State的管理方式。重点讲解了Managed Keyed State的生命周期管理和应用实例,如设置状态TTL以自动清理数据,以及如何在Operator State中统计输入数据量和维护分区与Offsets。

有状态计算是指在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或者算子计算结果使用。

状态数据可以维系在本地存储中(Flink的堆内存或者堆外存),也可以借助第三方的存储,例如Flink已经实现的RocksDB,或者自定义其他存储。

state 可以理解为Flink上下文中可以access的一个内存数据库(相比于无状态计算,需要实现同样功能需要借助外部数据库,如Redis),通过存取更新状态,从而实现有状态地算子运算。

案例:

  • 用户想实现CEP(复杂事件处理),获取符合某一特定事件规则的事件,状态计算就可以将接入的事件进行存储,然后等待符合规则的事件触发;
  • 用户想按照分钟、小时、天进行聚合计算,求取当前的最大值、均值等聚合指标,这就需要利用状态来维护当前计算过程中产生的结果,例如事件的总数、总和以及最大,最小值等

在Flink中需要通过创建StateDescriptor来获取相应State的操作类。StateDescriptor主要定义了状态的名称、状态中数据的类型参数信息以及状态自定义函数。每种Managed Keyed State有相应的StateDescriptor,例如ValueStateDescriptor、ListStateDescriptor、ReducingState-Descriptor、FoldingStateDescriptor、MapStateDescriptor等

其中获取状态的方式是在RichFunction的Open方法中,以ValueState为例:

private var leastValueState: ValueState[Long] = _
    override def open(parameters: Configuration): Unit = {
      //创建ValueStateDescriptor,定义状态名称为leastValue,并指定数据类型
      val leastValueStateDescriptor = new
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值