Flink CheckPoint : Exceeded checkpoint tolerable failure threshold

本文探讨了HBase查询性能低下导致的维度数据超时问题,如何影响checkpoint并提出通过优化get方法而非scan来提升查询效率,最终解决了checkpoint失败的问题。

一、问题描述

超过了检查点可容忍的故障阈值
在这里插入图片描述

在这里插入图片描述

二、解决步骤

1、检查checkpoint的设置

明显,checkpoint超时了,于是,我下意识地去,检查checkpoint的设置
代码中的设置如下:

		// 每 ** ms 开始一次 checkpoint
        env.enableCheckpointing(10*1000);
        // 设置模式为精确一次 (这是默认值)
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
        // 确认 checkpoints 之间的时间会进行 ** ms
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
        // Checkpoint 必须在一分钟内完成,否则就会被抛弃
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        // 同一时间只允许一个 checkpoint 进行
        env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
        // 开启在 job 中止后仍然保留的 externalized checkpoints
        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        // 允许在有更近 savepoint 时回退到 checkpoint
        env.getCheckpointConfig().setPreferCheckpointForRecovery(true);

尝试更改一下timeout时间,从1分钟改为10分钟,重新打包上线。
然后查看UI界面,发现checkpoint仍然无法正常进行,状态一直是IN_PROGRESS,没有进展,只不过从等待1分钟变成了10分钟,程序最后还是挂掉
在这里插入图片描述
这个时候,考虑不是checkpoint设置问题,而是程序有bug,资源没有释放或者其他问题,导致程序卡住了,以至于checkpoint超时。

2、检查处理逻辑

在这里插入图片描述
发现数据通道阻塞,经过打印数据发现,任务中异步IO从HBase中查询数据,有key不存在,关联任务超时,导致checkpoint失败
在这里插入图片描述
打印维度关联超时的数据:
在这里插入图片描述

3、问题复盘

问题产生原因:hbase scan性能低下,导致查询维度数据超时,创建检查点失败
正常来说,维度查询没有对应数据也不会超时的,只是返回空值,但是scan全盘扫描查询时间较长,所以使用get方式精准查询。

三、解决方案

hbase的查询实现只提供两种方式:
按指定rowkey获取唯一一条记录:get方法。
按指定条件获取一批记录:scan方法。
在这里插入图片描述

### 原因分析 在Flink作业中出现“Exceeded checkpoint tolerable failure threshold”错误提示,通常表明检查点操作在连续失败次数上超出了系统可容忍的阈值。这可能是由于以下原因导致的: - **检查点超时**:设置的检查点超时时间较短,而实际处理数据量较大,导致检查点未能在规定时间内完成。例如,配置中设置了检查点超时时间为60秒,但实际处理可能需要更长时间[^2]。 - **数据处理异常**:在数据流中可能存在某些异常数据,例如类型转换错误(如字符串"0.0"尝试转换为INT类型),导致检查点无法正常完成[^3]。 - **资源瓶颈**:系统资源(如CPU、内存或网络带宽)不足,可能导致检查点操作延迟或失败。 - **检查点间隔设置不合理**:如果检查点之间的间隔设置过短,可能会导致系统频繁触发检查点操作,从而增加系统负担,进而导致失败。 ### 解决方案 1. **调整检查点超时时间**:如果发现检查点经常超时,可以尝试增加`setCheckpointTimeout`的值,以允许更长时间的检查点操作完成。例如: ```java env.getCheckpointConfig().setCheckpointTimeout(120000); // 设置为120秒 ``` 2. **优化检查点间隔**:根据实际负载情况调整`setMinPauseBetweenCheckpoints`的值,避免检查点操作过于频繁。例如: ```java env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000); // 设置为1秒 ``` 3. **排查数据异常**:通过查看Flink UI界面中的Checkpoint历史信息,定位失败的检查点,并在日志中搜索异常信息,分析是否存在数据类型转换错误或其他数据处理异常。例如,可以通过日志找到具体的表名和字段名,然后检查源数据库的表结构,确认是否存在不匹配的数据类型[^3]。 4. **增加资源**:如果系统资源不足,可以尝试增加Flink任务的资源分配,例如增加TaskManager的数量或调整每个TaskManager的内存和CPU资源。 5. **调整最大并发检查点数量**:如果系统资源允许,可以适当增加`setMaxConcurrentCheckpoints`的值,以允许同时进行多个检查点操作,从而提高检查点的吞吐量。例如: ```java env.getCheckpointConfig().setMaxConcurrentCheckpoints(2); // 允许两个检查点同时进行 ``` 6. **启用外部化检查点并保留**:为了在作业中止后仍能保留检查点数据,可以继续启用外部化检查点,并选择合适的清理策略。例如: ```java env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); ``` 7. **启用偏好检查点恢复**:如果希望在有更近的Savepoint时回退到检查点进行恢复,可以保持以下配置: ```java env.getCheckpointConfig().setPreferCheckpointForRecovery(true); ``` ### 总结 通过调整检查点的超时时间、间隔、并发数量等配置,并结合日志分析排查数据处理异常,可以有效解决“Exceeded checkpoint tolerable failure threshold”问题。此外,合理分配系统资源也是确保检查点稳定运行的关键因素之一。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值