Exceeded checkpoint tolerable failure threshould【记一次flink上线异常】

最新推荐文章于 2025-09-11 13:05:59 发布

原创

最新推荐文章于 2025-09-11 13:05:59 发布 · 1.6w 阅读

9 ·

CC 4.0 BY-SA版权

在部署Flink程序后，遇到一分钟后任务挂起的问题，检查日志显示checkpoint超时。首先调整checkpoint超时时间，但问题依旧，checkpoint状态持续为IN_PROGRESS。进一步排查发现是由于忘记关闭数据库连接，导致资源占用，任务卡住。在预生产环境中，大量数据触发了该问题。修复代码并重新上线后，checkpoint恢复正常。

最近完成一个业务需求，flink程序上线之后，跑了不到一分钟就挂了，查看日志，报错如下：

org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.
        at org.apache.flink.runtime....

在这里插入图片描述
明显，checkpoint超时了，于是，我下意识地去检查checkpoint的设置，
代码中的设置如下：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序员椰子橙

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
6
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Flink】Flink Exceeded checkpoint tolerable failure threshold

九师兄

01-22

2484

1.概述 Flink程序，如果单平行度运行是正常的，多并行度运行时有一个subtask的数据量很少，写kafka的数据为0，在做checkpoint的时候就会超时。报错如图这个错误的意思是：超过检查点可容忍失败阈值对应的源码位置位于 /** * 超过检查点可容忍失败阈值 */ public static final String EXCEEDED_CHECKPOINT_TOLERABLE_FAILURE_MESSAGE = "Exceeded

【Flink】Flink检查点时间太小导致Exceeded checkpoint tolerable failure threshould

九师兄

06-29

7412

1.背景写了一个flink程序，大概如下 @Test public void flatMapStateBackendTest() throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 每隔1000 ms进行启动一个检查点【设置checkpoint的周期】 env.enableCheckp.

6 条评论您还未登录，请先登录后发表或查看评论

flink 出现反压场景，异常场景造成Exceeded checkpoint tolerable failure threshold.

u012447842的博客

10-14

7676

现象： flink 自定义写hdfs 的addsink 方法处理慢，出现了挤压现象；导致上游反压，后排查发现时 addsink 里面有一个解析rawtrace方法耗时很长，同时RichSinkFunction 是和平行度一样的线程数，导致出现了阻塞解决方案：把解析rawtrace代码放在了keyby， map里， keyby是按照traceId，将解析rawtrace 放在procesfuntion里，每来一条数据就解析一次，而不是在最后写入的时候去解析，这样不会出现阻塞的现象。

Flink 的精确一次（Exactly-Once）语义

最新发布

ITHomeZSL的博客

09-11

661

组件如何贡献于精确一次例子Flink 运行时通过Checkpoint机制定期保存状态快照，故障时回滚。状态回滚到上个检查点。数据源 (Source)必须支持可重放，以便从记录的偏移量重新读取。可以基于 Offset 重新消费。输出端 (Sink)必须支持事务写入，与 Checkpoint 机制配合实现两阶段提交。Kafka Sink：写入事务性消息。JDBC Sink：利用数据库事务。因此，Flink 的精确一次语义是一个端到端的保证，需要Source、Flink 本身、Sink 三者共同协作。

SqlServer FlinkCDC同步到Paimon一直卡在Busy100%的问题处理: Failed to convert value xxx to type TINYINT

hwh_scut的博客

06-12

848

SqlServer到Paimon数据湖同步异常处理，排查写入端一直处于Busy100%状态的问题

flink写文件报错（lang.NoClassDefFoundError: org/apache/flink/api/common/typeinfo/TypeInformation）

qq_39315954的博客

11-30

2148

1. 使用Flink存储parquet文件报错 21/07/15 14:24:47 INFO checkpoint.CheckpointCoordinator: Triggering checkpoint 2 (type=CHECKPOINT) @ 1626330287296 for job 06a80360b770722f8dd3e41252a5a8d7. 21/07/15 14:24:47 INFO filesystem.Buckets: Subtask 2 checkpointing for chec

Flink学习 - 9. Checkpoint使用方式

jerome520zl的博客

01-13

3306

Flink学习 - 9. Checkpoint使用方式checkpoint 开启checkpoint 模式checkpoint存储位置实例代码启动程序碰到的问题 checkpoint 开启默认的checkpoint是关闭的，需要使用的使用要优先开启开启方式： StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecu...

Flink CheckPoint ： Exceeded checkpoint tolerable failure threshold

lck_csdn的博客

06-09

3578

Flink异步IO查询HBase数据超时，导致创建checkpoint失败

FlinkCDC问题处理：Exceeded checkpoint tolerable failure threshold... checkpoint expired before completing

hwh_scut的博客

06-22

1732

SqlServer同步到Paimon因数值转换出错（NumberFormatException），导致checkpoint失败，作业运行异常的处理

Flink超过了可容忍的检查点失败阈值大数据

AlianBlank的博客

08-17

1133

总结起来，要解决"Flink Exceeded checkpoint tolerable failure threshold"错误，我们可以通过增加检查点失败阈值、优化作业配置、调整检查点存储方式以及升级Flink版本等方法来提高系统的容错性和稳定性。检查点是Flink中实现故障恢复和容错性的关键机制，它可以将作业的状态保存到持久化存储器中，并能够在需要时从该状态恢复。因此，如果遇到多次检查点失败的情况，可以考虑升级到最新的Flink版本，以获得更好的故障恢复和容错性能。那么，我们应该如何解决这个问题呢？

【Flink】Flink checkpoint expired before completing

九师兄

06-29

4752

1.背景在这个问题之前。【Flink】Flink检查点时间太小导致Exceeded checkpoint tolerable failure threshould 上面那个问题，我设置了1分钟 // 开启 Checkpoint，每 1000毫秒进行一次 Checkpoint env.enableCheckpointing(60000); // Checkpoint 语义设置为 EXACTLY_ONCE env.getCheckpointConfig().setCheckpointingMode(Che.

Flink报错：exceeded checkpoint tolerable failure threshould

东城庞太师

03-14

3975

问题如图：原因：资源太小 checkpoint时间太小数据库连接未关闭，资源未释放。解决：重新部署运行，正常！

[Flink 日记]Exceeded checkpoint tolerable failure threshold.

王先生的博客

05-24

4143

org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. 原因CheckpointTimeout 设置的Checkpoin超时时间内未完成任务导致的超时异常。解决 1，增加超时时间 2，增加机器性能。 ...

Flink任务失败，检查点失效：Exceeded checkpoint tolerable failure threshold.

热门推荐

weixin_45943866的博客

07-19

1万+

在报Exceeded checkpoint tolerable failure threshold.错误的之前，是先报的是Checkpoint expired before completing.大概意思是检查点在完成前过期了。

flink sql 报错：FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

zuixue_lei的博客

06-13

1828

当出现这种错误时，原因一般是启动任务时，所给的资源不够。可以调整 streamx 界面上的并行度、task的内存调大。然后重启任务看下是否能行。

org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

m0_37987037的博客

10-13

5673

org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. 原因 CheckpointTimeout 设置的Checkpoin超时时间内未完成任务导致的超时异常。解决 1，增加超时时间 2，增加机器性能 3，减少数据处理量：source并行度和窗口数据量减少，sink 并行度增加 ...

flink程序：Exceeded checkpoint tolerable failure threshould

syd19950119的博客

10-26

3509

@[TOC]Exceeded checkpoint tolerable failure threshould 在写一个flink程序时报错， Exceeded checkpoint tolerable failure threshould 百思不得其解，百度问题发现需要收费，简直无语最后找到问题所在我是使用了ListState，在第一次运行时他需要添加值，我设置初始值为null，而源码中要求不能为null 一般电脑性能好的话是不会出现这个问题，但是在第一次运行时需啊哟时间去拿到值，而我设置的checkp

Flink报错：org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

小蚯蚓的博客

01-14

5121

org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold 一、问题描述 flink执行任务报错 2022-01-11 15:10:49 org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. at org.apache.flink.runtime.c

Flink｜checkpoint 超时报错问题处理（FlinkRuntimeException）

长行

01-07

3286

Flink 的 checkpoint 的超时时间时 600 秒，但是这个任务需要 11 分钟才能完成。另一方面也可能是因为线上运行时，对 MySQL 请求时走的是内网请求，而本地运行走的是外网请求。为了评估一个 Flink 程序的处理效果，我使用本地模式启动了 Flink 程序，并在上游表中一次性插入了大量数据（大概相当于线上单个并发 4 - 5 分钟的最大处理量），以触发计算。但是，在本地计算中，一直无法计算完成，观察后发现任务在被重复计算，进而发现 Flink 在不断从 checkpoint 恢复。

Exceeded checkpoint tolerable failure threshold

08-22

### 原因分析在Flink作业中出现“Exceeded checkpoint tolerable failure threshold”错误提示，通常表明检查点操作在连续失败次数上超出了系统可容忍的阈值。这可能是由于以下原因导致的： - **检查点超时**：设置的检查点超时时间较短，而实际处理数据量较大，导致检查点未能在规定时间内完成。例如，配置中设置了检查点超时时间为60秒，但实际处理可能需要更长时间[^2]。 - **数据处理异常**：在数据流中可能存在某些异常数据，例如类型转换错误（如字符串"0.0"尝试转换为INT类型），导致检查点无法正常完成[^3]。 - **资源瓶颈**：系统资源（如CPU、内存或网络带宽）不足，可能导致检查点操作延迟或失败。 - **检查点间隔设置不合理**：如果检查点之间的间隔设置过短，可能会导致系统频繁触发检查点操作，从而增加系统负担，进而导致失败。 ### 解决方案 1. **调整检查点超时时间**：如果发现检查点经常超时，可以尝试增加`setCheckpointTimeout`的值，以允许更长时间的检查点操作完成。例如： ```java env.getCheckpointConfig().setCheckpointTimeout(120000); // 设置为120秒 ``` 2. **优化检查点间隔**：根据实际负载情况调整`setMinPauseBetweenCheckpoints`的值，避免检查点操作过于频繁。例如： ```java env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000); // 设置为1秒 ``` 3. **排查数据异常**：通过查看Flink UI界面中的Checkpoint历史信息，定位失败的检查点，并在日志中搜索异常信息，分析是否存在数据类型转换错误或其他数据处理异常。例如，可以通过日志找到具体的表名和字段名，然后检查源数据库的表结构，确认是否存在不匹配的数据类型[^3]。 4. **增加资源**：如果系统资源不足，可以尝试增加Flink任务的资源分配，例如增加TaskManager的数量或调整每个TaskManager的内存和CPU资源。 5. **调整最大并发检查点数量**：如果系统资源允许，可以适当增加`setMaxConcurrentCheckpoints`的值，以允许同时进行多个检查点操作，从而提高检查点的吞吐量。例如： ```java env.getCheckpointConfig().setMaxConcurrentCheckpoints(2); // 允许两个检查点同时进行 ``` 6. **启用外部化检查点并保留**：为了在作业中止后仍能保留检查点数据，可以继续启用外部化检查点，并选择合适的清理策略。例如： ```java env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); ``` 7. **启用偏好检查点恢复**：如果希望在有更近的Savepoint时回退到检查点进行恢复，可以保持以下配置： ```java env.getCheckpointConfig().setPreferCheckpointForRecovery(true); ``` ### 总结通过调整检查点的超时时间、间隔、并发数量等配置，并结合日志分析排查数据处理异常，可以有效解决“Exceeded checkpoint tolerable failure threshold”问题。此外，合理分配系统资源也是确保检查点稳定运行的关键因素之一。 ---