Flink四大核心组件:State、Checkpoint、Window、Time

Flink四大核心组件:State、Checkpoint、Window、Time

1.state

1.1.状态管理:

flink有两种状态:keyedState和operatorState

state keyedState operatorState
支持的算子 keyedState只能用在keyedStream的算子中每个key对应一个state 可以用于所有算子常用于source,例如:FlinkKafkaConsumer
key和state 一个operator实例处理多个key,访问相应的多个state并发改变,State随着key在实例中迁移 一个operator实例对应一个state并发改变时,有多种重新分配方式可选:1.均匀分配 ;2.合并后每个得到全量
接口实现 通过runcontext访问:RichFunction 实现CheckPointed接口或ListCheckPointed接口
支持的数据结构 valueState,ListState,ReducingState,AggregatingState,MapState ListState

KeyedState 和 OperatorState 都有两种形式存在:
1、原始状态 RawState
原始状态,是由用户自行管理状态具体的数据结构,框架在做 checkpoint 的时候,使用 byte[]来读写内容,对其内部数据结构一无所知
2、托管状态 ManagedState
托管状态是由 Flink 框架管理的状态
通常,在 DataStream 上的状态,推荐使用托管的状态,当实现一个用户自定义的 Operator的时候,会使用到原始状态

RawState ManagedState
状态管理方式 用户自己管理 需要自己序列化 FlinkRuntime管理 自动存储,自动恢复 内存管理上有优化
状态数据结构 字节数组:byte[] 已知的数据结构:value,map,list…
推荐使用场景 自定义operator时可使用 大多数情况下均可使用

在这里插入图片描述

2.Checkpoint

2.1. 状态的保存和修复

checkpoint
定时制作分布式快照,对程序中的状态进行备份
发生故障时:
将整个作业的所有task都回滚到最后一次成功checkpoint中的状态,然后从那个点开始处理
必要条件:
数据源支持重发
一致性语义:
恰好一次
至少一次
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.enableCheckpointing(1000);
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500); env.getCheckpointConfig().setCheckpointTimeout(60000); env.getCheckpointConfig().setMaxConcurrentCheckpoints(1); env.getCheckpointConfig().enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

2.2. 可选择的状态存储方式

state 的store和checkpoint

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值