Flink 的状态一致性
状态一致性

- 有状态的流处理,内部每个算子任务都可以有自己的状态
- 对于流处理器内部来说,所谓的状态一致性,其实就是我们所说的计算结果要保证准确
- 一条数据不应该丢失,也不应该重复计算
- 在遇到故障时可以恢复状态,恢复以后的重新计算,结果应该也是完
全正确的
EXACTLY-ONCE(精确一次):恰好处理一次是最严格的保证,也是最难实现的。恰好处理一次语义不 仅仅意味着没有事件丢失,还意味着针对每一个数据,内部状态仅仅更新一次。
一致性检查点(checkpoint)
- Flink 使用了一种轻量级快照机制 —— 检查点(checkpoint)来保证 exactly-once 语义
- 有状态流应用的一致检查点,其实就是:所有任务的状态,在某个时间点的一份拷贝(一份快照)。而这个时间点,应该是所有任务都恰好处理完一个相同的输入数据的时候。
- 应用状态的一致检查点,是 Flink 故障恢复机制的核心

端到端(end-to-end)状态一致性
- 目前我们看到的一致性保证都是由流处理器实现的,也就是说都是在Flink 流处理器内部保证的;而在真实应用中,流处理应用除了流处理器以外还包含了数据源(例如 Kafka)和输出到持久化系统
- 端到端的一致性保证,意味着结果的正确性贯穿了整个流处理应用的始终;每一个组件都保证了它自

本文详细介绍了Flink在有状态流处理中的状态一致性,包括检查点机制、端到端状态一致性和精确一次保证。通过幂等写入、预写日志和两阶段提交,确保在故障恢复时数据不丢失且不重复计算。Flink与Kafka结合,实现了从源头到sink的端到端一致性。同时,文章讨论了两阶段提交的具体步骤,确保了数据的正确写入。
最低0.47元/天 解锁文章
888

被折叠的 条评论
为什么被折叠?



