Flink重启策略(restart-strategy)优化

_Janick

已于 2022-06-19 22:09:14 修改

阅读量1.8k

点赞数

分类专栏： flink 文章标签： flink 策略模式大数据

于 2022-02-24 21:04:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_30708747/article/details/123121042

版权

Flink重启策略(restart-strategy)优化

index

Flink重启策略(restart-strategy)优化
- 背景
- 问题分析
- 结论
- 优化

背景

1、实时任务依赖Zookeeper做高可用，当Zookeeper节点重启，会导致相当一部分任务挂掉；
2、依赖DCache、HBase这类外部系统的任务，稳定性较差，当外部系统抖动很容易就导致任务运行失败。

理想情况下，我们希望在外部依赖出现波动时，任务能重新连接/连接其他服务节点，而实际上，Flink本身也提供了任务自动重启的支持，我们默认使用的是failure-rate重启策略。上述两类都是由于外部系统波动导致任务稳定性下降的问题，通过分析任务日志，任务都是因为重启超过集群配置的失败阈值：10分钟内超过5次失败，然而，任务实际上并没有重启5次。

问题一：为什么外部系统抖动会导致任务触发failure-rate阈值立即失败

问题二：依赖Zookeeper的任务为什么只挂掉一部分

问题分析

简单描述下运行时出现异常的处理流程：

Task failed -> TaskExecutor上报JobMaster失败信息 -> 判断是否存在该Task执行信息 -> 根据重启策略判断是否需要重启，根据故障转移策略选择需要重启的所有Task -> 停止需要重启的Task ->更新数据，移除Task执行信息 -> 生成并写入新的执行信息 -> 重新调度启动

详细流程可看：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。