Flink测试环境中Checkpoint保存问题的解决方法

最新推荐文章于 2024-11-29 09:39:57 发布

幻想世界中的绚丽色彩

最新推荐文章于 2024-11-29 09:39:57 发布

阅读量371

点赞数 1

CC 4.0 BY-SA版权

文章标签： flink 大数据

本文链接：https://blog.youkuaiyun.com/BugCrusher/article/details/132398917

大数据专栏收录该内容

183 篇文章 ¥59.90 ¥99.00

订阅专栏

本文详细介绍了Apache Flink测试环境中遇到的Checkpoint保存问题及其解决方案，包括配置Checkpoint参数、检查和创建Checkpoint目录、启用Checkpoint功能，以确保在故障时能恢复应用程序状态。

Flink测试环境中Checkpoint保存问题的解决方法

在大数据领域，Apache Flink是一个强大的流处理框架，它提供了容错机制来确保应用程序的可靠性。其中一个重要的特性是Checkpoint，它允许将应用程序的状态定期保存到持久化存储中，以便在发生故障时进行恢复。然而，有时在Flink的测试环境中，我们可能会遇到无法保存Checkpoint的问题。本文将介绍如何解决这个问题，并提供相应的源代码示例。

问题描述

当在Flink的测试环境中运行应用程序时，你可能会遇到Checkpoint无法保存的问题。这可能导致应用程序在发生故障时无法进行恢复，从而影响应用程序的可靠性。

解决方案

要解决Flink测试环境中无法保存Checkpoint的问题，可以按照以下步骤进行操作：

配置Checkpoint参数

首先，我们需要在Flink应用程序的配置文件中配置Checkpoint相关的参数。打开flink-conf.yaml配置文件，并确保以下参数的值正确设置：

state.backend: filesystem
state.checkpoints.dir: file:

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

幻想世界中的绚丽色彩

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

【Flink】Flink CDH6.3.2 下的yarn per job模式 savepoint和checkpoint，卡住，没有保存成功文件

九师兄

12-08

764

1.场景1 1.1 概述我们遇见CDH6.3.2 下的yarn per job模式 savepoint和checkpoint，卡住，没有保存成功文件非常简单的一个job，消费几条kafka，不存在太大的问题，单机flink可以，yarn下不行文件也创建出来了，0字节，然后我在flink 1.13 源码中加入如下日志然后运行如下还有ERROR字样的就是这句现在知道OperatorCoordinatorCheckpoints.triggerAndAcknowledgeAllCoordin

【Flink】解决Flink在测试环境无法保存checkpoint问题

九师兄

12-09

786

解决Flink在测试环境无法保存checkpoint问题本文章是和遇到问题的作者一起排查的。主要还是对方牛逼。但是这个问题好难搞，我也记录一下。

参与评论您还未登录，请先登录后发表或查看评论

Flink学习 - 9. Checkpoint使用方式

jerome520zl的博客

01-13

3306

Flink学习 - 9. Checkpoint使用方式checkpoint 开启checkpoint 模式checkpoint存储位置实例代码启动程序碰到的问题 checkpoint 开启默认的checkpoint是关闭的，需要使用的使用要优先开启开启方式： StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecu...

从checkpoint恢复flink job

热门推荐

帆了个帆的专栏

03-26

1万+

flink使用checkpoint方式保存task的状态，当task失败时，可以从之前checkpoint地方恢复状态；如果说整个应用挂了，如何根据之前checkpoint来恢复应用的状态；首先应用挂了的话，它默认会删除之前checkpoint数据，当然我们可以在代码中设置应用退出时保留checkpoint数据 CheckpointConfig config = env.getChec...

解决Flink在测试环境无法保存checkpoint问题

qy8502的专栏

11-19

5511

在测试环境部署的flink，无法成功的存储checkpoints。或者使用flink命令执行savepoint也无法成功保存。hdsf中创建了对应的目录，却没有写任何文件。

flink使用OSS作为checkpoints启动报错

u011618053的博客

03-23

591

Exception in thread "main" java.lang.RuntimeException: java.util.concurrent.ExecutionException: org.apache.flink.runtime.client.JobSubmissionException: Failed to submit job. at org.apache.flink.util.ExceptionUtils.rethrow(ExceptionUtils.java:290) a...

Flink笔记(十九)：Flink 从 Checkpoint 中恢复数据

01-20

在 Flink 中，为了应对程序错误或人为取消任务时的数据丢失问题，Checkpoint 机制是至关重要的。本篇将深入讲解如何利用 Flink 的 Checkpoint 机制从已保存的状态中恢复数据。首先，我们需要理解什么是 Flink 的 ...

Flink SQL Checkpoint 学习总结

主要分享大数据相关的知识，如Spark、Hudi

03-03

5703

学习总结Flink SQL Checkpoint的使用，主要目的是为了验证Flink SQL流式任务挂掉后，重启时还可以继续从上次的运行状态恢复。对于flink sql读取mysql，设置checkpoint恢复不生效（不是flink cdc）checkpoint 一个时间间隔内只有一个批次，这样才能保证eos,时间间隔大小影响写入性能。

Flink四大基石之CheckPoint

weixin_63297999的博客

11-29

2668

重启策略是一个单独的策略，如果你配置了 checkpoint 含有重启策略的，如果你没有 checkpoint 也可以自行配置重启策略，总之重启策略和 checkpoint 没有必然联系。重启策略的意义：流式数据是不可能停止的，假如有一条错误数据导致程序直接退出，后面的大量数据是会丢失的，对公司来讲，意义是重大的，损失是惨重的。运行，刷新查看checkpoint保存的数据，它会先生成一个新的文件夹，然后再删除老的文件夹，在某一时刻，会出现两个文件夹同时存在的情况。因为开启检查点之后，程序会进行。

Flink任务中的checkpoing与savepoint相关问题

weixin_47114055的博客

08-17

2089

##一、报错：checkpoint 正常，savepoint不可做问题：flink-conf.yaml中缺少相应的配置解决方案：在flink-conf.yaml中增加配置 state.backend: filesystem ##二、报错：java.util.concurrent.TimeoutException 问题：checkpoint正常，savepoint失败解决方案：造成问题很多，此处解决flink sql中的参数配置问题－yD “high-availabilty”="NONE"导致fl

Flink的Checkpoint与Kafka的偏移量

Yuan_CSDF的博客

08-12

4458

1、Kafka的offset Kafka0.8版本以前，offset默认存储在zookeeper中（基于Zookeeper） Kafka0.9版本以后，offset默认存储在内部的topic中，基于__consumer_offsets 的Topic中。二：kafka消费offset提交配置： 1. checkpoint禁用： flink kafka消费依赖于内部kafka客户端自动定期的offset提交配置：enable.auto.commit / auto.commit.interva.

分享一个Flink checkpoint失败的问题和解决办法

HeapDump性能社区的博客

08-14

2731

本文来自: PerfMa技术社区 PerfMa(笨马网络)官网接触Flink一段时间了，遇到了一些问题，其中有一个checkpoint失败导致作业重启的问题，遇到了很多次，重启之后一般也能恢复正常，没有太在意，最近2天有同事又频繁遇到，这里记录一下解决方案和分析过程。我们的flink测试环境有3个节点，部署架构是每个flink节点上部署一个HDFS的DataNode节点，hdfs用于flink的checkpoint和savepoint 现象看日志是说有个3个datanode活着，文件副本是1，但.

flink 设置checkpoint路径遇到的部署问题[Cannot support file system for ‘hdfs‘ via Hadoop]

乾坤瞬间的博客

06-27

2437

flink 设置ck遇到的部署遇到的问题 1、增加 core-site.xml文件和 hdfs-site.xml 这两个文件需要在集群的hadoop集群中找 2、需要在main方法中添加 3、需要在项目中引入 hadoop版本通过 4、添加 checkpoint路径前提是flink用户需要有hdf集群的查看权限如果使用 rockeddbStateBackEnd需要添加依赖以上是设置增量ck需要做的代码设置。配置rocksdb保存checkpoint时，idea运行报错5、确定设置了 Co

Flink的检查点和保存点

qq_42456324的博客

11-25

3529

如果出现故障，我们恢复到之前保存的状态，故障时正在处理的所有数据都需要重新处理；现在重启应用，内存中的状态已经丢失，就意味着之前的计算全部白费了，需要从头来过。具体来说，当每隔一段时间检查点保存操作被触发时，就把每个任务当前的状态复制一份，按照一定的逻辑结构放在一起持久化保存起来，就构成了检查点。，重置状态：找到最近一次保存的检查点，从中读出每个算子任务状态的快照，分别填充到对应的状态中。遇到故障重启的时候，我们可以从检查点中“读档”，恢复出之前的状态，这样就可以回到当时保存的一刻接着处理数据了。

Flink常见Checkpoint超时问题排查思路

TechWhiz的博客

08-12

426

综上所述，本文介绍了常见的Flink Checkpoint超时问题排查思路，并给出了相应的源代码示例。在实际应用中，根据具体情况进行以上几方面的排查，能够较快定位和解决Checkpoint超时问题，提升Flink任务的稳定性和性能。首先，检查Flink作业的Checkpoint配置，包括Checkpoint间隔时间、最大并行度、异步快照模式等参数。查看Flink任务的日志信息，特别是与Checkpoint相关的日志，查找是否有异常或错误信息。Flink常见Checkpoint超时问题排查思路。

（7）Flink-CheckPoint

allensandy的博客

06-18

1332

目录 1、checkpoint 2、StateBackend 3、Restart Strategies 3、SavePoint 1、checkpoint 默认情况下，checkpoint不会被保留，取消程序时即会删除它们，但是可以通过配置保留定期检查点。开启Checkpoint功能，有两种方式。其一是在conf/flink_conf.yaml中做系统设置；其二是针对任务再代码里灵活配置。推荐第二种方式，针对当前任务设置，设置代码如下所示： //获取flink的运行环境 final Strea

Flink 基本处理函数

weixin_45417821的博客

04-18

749

文章目录基本处理函数（ProcessFunction）ProcessFunction 解析抽象方法.processElement()非抽象方法.onTimer()处理函数的分类在更底层，我们可以不定义任何具体的算子（比如 map，filter，或者 window），而只是提炼出一个统一的“处理”（process）操作——它是所有转换算子的一个概括性的表达，可以自定义处理逻辑，所以这一层接口就被叫作“处理函数”（process function）。在处理函数中，我们直面的就是数据流中最基本的元素：数据事件

Flink Checkpoint 原理流程以及常见失败原因分析

稻草人技术博客

12-28

4394

前言目前有赞实时任务主要以 Flink 为主，为了保证实时任务的容错恢复以及停止重启时的状态恢复，几乎所有的实时任务都会开启 Checkpoint 或者触发 Savepoint 进行状态保存。由于 Savepoint 底层原理的实现和 Checkpoint 几乎一致，本文结合 Flink 1.9 版本，重点讲述 Flink Checkpoint 原理流程以及常见原因分析，让用户能够更好的理解 Flink Checkpoint，从而开发出更健壮的实时任务。一、什么是 Flink Checkpoint 和

实践数据湖iceberg 第二十七课 flink cdc 测试程序故障重启：能从上次checkpoint点继续工作

spark_dev的博客

04-07

4412

程序化部署，测试flink cdc重启恢复测试思路：1.程序停止时，进行checkpoint记录，记录checkpoint的位置 2.程序停止时，写入数据，记录写入的数据，测试重启后，能否从故障点开始恢复。结论：能

flink 持久化 checkpoint

最新发布

11-07

在 Apache Flink 中，**Checkpoint 是实现容错和持久化的核心机制**。它通过定期保存流式作业的全局状态（包括算子状态、键控状态等），使得在发生故障时能够从最近一次成功的 Checkpoint 恢复，从而保证 **Exactly-Once 语义**。 --- ## ✅ 什么是 Checkpoint？ Flink 的 **Checkpoint** 是一个由 JobManager 协调发起的、分布式快照过程，用于记录当前所有任务的状态，并将其持久化到可靠的存储系统中。 > 💡 目标：当 Flink 作业因机器宕机、网络中断等原因失败后，可以从最近的 Checkpoint 恢复运行，不丢失数据也不重复处理。 --- ## 🧩 Checkpoint 的工作原理 1. JobManager 定期向所有 Source Task 发送 `Barrier`； 2. Barrier 随着数据流在 DAG 中传播； 3. 每个 Operator 接收到 Barrier 后暂停处理后续元素，将当前状态异步写入持久化存储； 4. 所有输入流都收到 Barrier 后完成本次 Checkpoint； 5. 最终 JobManager 收到所有确认，标记该 Checkpoint 成功。这个过程称为 **Chandy-Lamport 算法** 的变种。 --- ## ✅ 如何配置持久化的 Checkpoint？要让 Checkpoint 实现真正的“持久化”，必须配置以下两个方面： ### 1. 启用并配置 Checkpointing ```java StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // === 启用 Checkpoint === env.enableCheckpointing(5000); // 每 5 秒触发一次 Checkpoint // === 高级配置项 === env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE); env.getCheckpointConfig().setCheckpointTimeout(60000); // 超时时间 env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500); // 两次间隔最小时间 env.getCheckpointConfig().setMaxConcurrentCheckpoints(1); // 并发数 env.getCheckpointConfig().setTolerableCheckpointFailureNumber(3); // 允许失败次数 env.getCheckpointConfig().enableExternalizedCheckpoints( ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION ); // 关键！保留 Checkpoint ``` 📌 `ExternalizedCheckpointCleanup` 参数说明： | 枚举值 | 行为 | |--------|------| | `DELETE_ON_CANCELLATION` | 取消作业时自动删除 Checkpoint（默认） | | `RETAIN_ON_CANCELLATION` | 取消作业后仍保留 Checkpoint（推荐用于生产） | 👉 如果你不设置 `.RETAIN_ON_CANCELLATION`，那么一旦你手动停止作业，Checkpoint 数据就会被删除！ --- ### 2. 设置状态后端（State Backend）和 Checkpoint 存储路径 Flink 支持多种状态后端，它们决定了状态如何存储以及 Checkpoint 写往哪里。 #### 示例：使用 `FileSystemStateBackend`（推荐） ```java // 设置状态后端为基于文件系统的持久化存储（如 HDFS, S3, OSS） env.setStateBackend(new HashMapStateBackend()); // 指定 Checkpoint 持久化位置（必须是分布式可靠存储） env.getCheckpointConfig().setCheckpointStorage("hdfs://namenode:9000/flink/checkpoints"); ``` 或使用更现代的方式（Flink 1.15+）： ```java env.setStateBackend(new HashMapStateBackend()); env.getCheckpointConfig().setCheckpointStorage( new FileSystemCheckpointStorage("hdfs://namenode:9000/flink/checkpoints") ); ``` ✅ 支持的存储路径协议： - `hdfs://...` — Hadoop HDFS - `s3://...` 或 `s3a://...` — Amazon S3 - `oss://...` — 阿里云 OSS - `gs://...` — Google Cloud Storage - `file://...` — 本地文件系统（仅测试用，不推荐生产） > ⚠️ 注意：`file://` 不具备高可用性，如果节点宕机，状态丢失！ --- ## ✅ Checkpoint 目录结构示例当你配置了 `hdfs://namenode:9000/flink/checkpoints` 后，Flink 会生成如下结构： ``` /flink/checkpoints/ ├── <job-id>/ │ ├── chk-1/ │ │ ├── ... │ │ └── _metadata │ ├── chk-2/ │ └── completed/ │ └── chk-3/ <-- 成功完成的 Checkpoint │ └── shared/ │ └── taskowned/ └── latest-flink-checkpoint-pointer -> chk-3 # 指向最新成功 Checkpoint ``` 这些数据包含了： - 算子状态（Operator State） - 键控状态（Keyed State，如 ValueState, ListState） - 分布式快照元信息 --- ## ✅ 如何从持久化 Checkpoint 恢复作业？ ### 方法一：从 Savepoint 恢复（推荐用于升级/迁移）虽然 Savepoint 和 Checkpoint 不同（Savepoint 是手动触发、格式稳定），但你可以先将 Checkpoint 转为 Savepoint： ```bash # 查看最新的 Checkpoint ID curl http://<jobmanager-address>:8081/jobs/<job-id>/checkpoints # 触发 Savepoint（可选） bin/flink savepoint <job-id> hdfs://namenode:9000/flink/savepoints ``` 然后重启作业并指定恢复路径： ```bash bin/flink run -s hdfs://namenode:9000/flink/savepoints/savepoint-abc123 -d job.jar ``` ### 方法二：自动从外部化 Checkpoint 恢复如果你设置了： ```java env.getCheckpointConfig().enableExternalizedCheckpoints( ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION ); ``` 那么可以这样恢复： ```bash bin/flink run -s hdfs://namenode:9000/flink/checkpoints/<job-id>/chk-<N> job.jar ``` ✅ 这样即使作业被取消，也可以重新提交并继续从上次断点恢复。 --- ## ✅ 生产环境最佳实践 | 建议 | 说明 | |------|------| | 使用 `RETAIN_ON_CANCELLATION` | 防止误删 Checkpoint | | 将 Checkpoint 存储在 HDFS/S3/OSS 等分布式文件系统 | 保证可靠性 | | 定期备份重要 Checkpoint | 防止误操作或存储损坏 | | 避免使用 `MemoryStateBackend` 或 `file://` | 无法真正持久化 | | 监控 Checkpoint 成功率和耗时 | 使用 Flink Web UI 或 Prometheus + Grafana | --- ## ✅ 示例完整代码（Java） ```java public class CheckpointedStreamingJob { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // --- 状态后端 --- env.setStateBackend(new HashMapStateBackend()); // --- Checkpoint 配置 --- env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE); env.getCheckpointConfig().setCheckpointTimeout(60000); env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500); env.getCheckpointConfig().setMaxConcurrentCheckpoints(1); // --- 持久化 Checkpoint --- env.getCheckpointConfig().enableExternalizedCheckpoints( ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION ); // --- 设置 Checkpoint 存储路径 --- env.getCheckpointConfig().setCheckpointStorage( "hdfs://namenode:9000/flink/checkpoints" ); // --- 数据处理逻辑 --- env.addSource(new FlinkKafkaConsumer<>("input-topic", new SimpleStringSchema(), properties)) .keyBy(value -> value) .map(new StatefulMapFunction()) .addSink(new FlinkKafkaProducer<>("output-topic", new SimpleStringSchema(), producerConfig)); env.execute("Stateful Streaming Job with Checkpoint"); } } ``` --- ## ✅ 常见问题排查 | 问题 | 解决方案 | |------|----------| | `ClassNotFoundException: org.apache.hadoop.fs.FileSystem` | 缺少 Hadoop 客户端依赖，添加 `hadoop-client` JAR 包 | | Checkpoint 超时或失败 | 检查网络、磁盘 IO、状态大小；增加超时时间 | | Checkpoint 太慢 | 减小状态大小、启用增量 Checkpoint（RocksDB） | | 恢复时报 `Incompatible checkpoint state` | 算子结构变化导致不兼容，需调整 UIDs 或使用兼容模式 | --- ## ✅ 增量 Checkpoint（高级功能，基于 RocksDB）如果你的状态很大（GB 级别），建议使用 `RocksDBStateBackend` 并启用增量 Checkpoint： ```java RocksDBStateBackend rocksDBStateBackend = new RocksDBStateBackend("hdfs://namenode:9000/flink/checkpoints", true); env.setStateBackend(rocksDBStateBackend); ``` ✅ 优点： - 只上传变更的部分； - 显著降低 Checkpoint 时间和带宽消耗； ---