Exceeded checkpoint tolerable failure threshould【记一次flink上线异常】

在部署Flink程序后,遇到一分钟后任务挂起的问题,检查日志显示checkpoint超时。首先调整checkpoint超时时间,但问题依旧,checkpoint状态持续为IN_PROGRESS。进一步排查发现是由于忘记关闭数据库连接,导致资源占用,任务卡住。在预生产环境中,大量数据触发了该问题。修复代码并重新上线后,checkpoint恢复正常。

最近完成一个业务需求,flink程序上线之后,跑了不到一分钟就挂了,查看日志,报错如下:

org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.
        at org.apache.flink.runtime....

在这里插入图片描述
明显,checkpoint超时了,于是,我下意识地去检查checkpoint的设置,
代码中的设置如下:

        // 每 ** ms 开始一次 checkpoint
        env.enableCheckpointing(10*1000);
        // 设置模式为精确一次 (这是默认值)
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
        // 确认 checkpoints 之间的时间会进行 ** ms
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
        // Checkpoint 必须在一分钟内完成,否则就会被抛弃
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        // 同一时间只允许一个 checkpoint 进行
        env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
        // 开启在 job 中止后仍然保留的 externalized checkpoints
        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        // 允许在有更近 savepoint 时回退到 checkpoint
        env.getCheckpointConfig().setPreferCheckpointForRecovery(true);

尝试更改一下timeout时间,从1分钟改为10分钟,重新打包上线。
然后查看UI界面,发现checkpoint仍然无法正常进行,状态一直是IN_PROGRESS,没有进展,只不过从等待1分钟变成了10分钟,程序最后还是挂掉
在这里插入图片描述
这个时候,考虑不是checkpoint设置问题,而是程序有bug,资源没有释放或者其他问题,导致程序卡住了,以至于checkpoint超时。

仔细检查etl逻辑,发现忘了关闭数据库连接。

        //关闭连接和释放资源
        if (connection != null) {
            connection.close();
        }
        if (ps != null) {
            ps.close();
        }

在本地测试的时候,由于测试数据的并发量不够,数据库没有被打满,所有没有出现任务卡住了;上了预生产环境后的大量数据涌入,才导致问题出现,本地调试发现不了这个问题。
修改代码重新上线,查看checkpoint界面,正常执行。
在这里插入图片描述

### 原因分析 在Flink作业中出现“Exceeded checkpoint tolerable failure threshold”错误提示,通常表明检查点操作在连续失败次数上超出了系统可容忍的阈值。这可能是由于以下原因导致的: - **检查点超时**:设置的检查点超时时间较短,而实际处理数据量较大,导致检查点未能在规定时间内完成。例如,配置中设置了检查点超时时间为60秒,但实际处理可能需要更长时间[^2]。 - **数据处理异常**:在数据流中可能存在某些异常数据,例如类型转换错误(如字符串"0.0"尝试转换为INT类型),导致检查点无法正常完成[^3]。 - **资源瓶颈**:系统资源(如CPU、内存或网络带宽)不足,可能导致检查点操作延迟或失败。 - **检查点间隔设置不合理**:如果检查点之间的间隔设置过短,可能会导致系统频繁触发检查点操作,从而增加系统负担,进而导致失败。 ### 解决方案 1. **调整检查点超时时间**:如果发现检查点经常超时,可以尝试增加`setCheckpointTimeout`的值,以允许更长时间的检查点操作完成。例如: ```java env.getCheckpointConfig().setCheckpointTimeout(120000); // 设置为120秒 ``` 2. **优化检查点间隔**:根据实际负载情况调整`setMinPauseBetweenCheckpoints`的值,避免检查点操作过于频繁。例如: ```java env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000); // 设置为1秒 ``` 3. **排查数据异常**:通过查看Flink UI界面中的Checkpoint历史信息,定位失败的检查点,并在日志中搜索异常信息,分析是否存在数据类型转换错误或其他数据处理异常。例如,可以通过日志找到具体的表名和字段名,然后检查源数据库的表结构,确认是否存在不匹配的数据类型[^3]。 4. **增加资源**:如果系统资源不足,可以尝试增加Flink任务的资源分配,例如增加TaskManager的数量或调整每个TaskManager的内存和CPU资源。 5. **调整最大并发检查点数量**:如果系统资源允许,可以适当增加`setMaxConcurrentCheckpoints`的值,以允许同时进行多个检查点操作,从而提高检查点的吞吐量。例如: ```java env.getCheckpointConfig().setMaxConcurrentCheckpoints(2); // 允许两个检查点同时进行 ``` 6. **启用外部化检查点并保留**:为了在作业中止后仍能保留检查点数据,可以继续启用外部化检查点,并选择合适的清理策略。例如: ```java env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); ``` 7. **启用偏好检查点恢复**:如果希望在有更近的Savepoint时回退到检查点进行恢复,可以保持以下配置: ```java env.getCheckpointConfig().setPreferCheckpointForRecovery(true); ``` ### 总结 通过调整检查点的超时时间、间隔、并发数量等配置,并结合日志分析排查数据处理异常,可以有效解决“Exceeded checkpoint tolerable failure threshold”问题。此外,合理分配系统资源也是确保检查点稳定运行的关键因素之一。 ---
评论 6
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值