最近完成一个业务需求,flink程序上线之后,跑了不到一分钟就挂了,查看日志,报错如下:
org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.
at org.apache.flink.runtime....

明显,checkpoint超时了,于是,我下意识地去检查checkpoint的设置,
代码中的设置如下:
在部署Flink程序后,遇到一分钟后任务挂起的问题,检查日志显示checkpoint超时。首先调整checkpoint超时时间,但问题依旧,checkpoint状态持续为IN_PROGRESS。进一步排查发现是由于忘记关闭数据库连接,导致资源占用,任务卡住。在预生产环境中,大量数据触发了该问题。修复代码并重新上线后,checkpoint恢复正常。
最近完成一个业务需求,flink程序上线之后,跑了不到一分钟就挂了,查看日志,报错如下:
org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.
at org.apache.flink.runtime....

明显,checkpoint超时了,于是,我下意识地去检查checkpoint的设置,
代码中的设置如下:
661
2148
1133
5673

被折叠的 条评论
为什么被折叠?