Apache Paimon 数据快照管理完全指南

最新推荐文章于 2025-06-22 17:44:09 发布

陆骊咪Durwin

最新推荐文章于 2025-06-22 17:44:09 发布

阅读量236

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00138/article/details/148758418

Apache Paimon 数据快照管理完全指南

paimon Apache Paimon is a lake format that enables building a Realtime Lakehouse Architecture with Flink and Spark for both streaming and batch operations. 项目地址: https://gitcode.com/gh_mirrors/pai/paimon

什么是数据快照

在 Apache Paimon 中，数据快照(Snapshot)是表在某一时刻完整状态的记录。每次数据写入操作都会生成新的快照，快照机制为数据湖表提供了以下核心能力：

数据版本控制：可以回溯到历史任意时间点的数据状态
ACID 保证：确保数据变更的原子性和一致性
增量处理：基于快照实现高效的增量计算

快照过期机制

随着持续写入，快照数量会不断增长，占用存储空间。Paimon 通过智能的快照过期机制自动清理不再需要的快照和相关数据文件。

过期策略配置参数

| 参数名称 | 默认值 | 说明 | |---------|--------|------| | snapshot.time-retained | 1小时 | 快照保留的最长时间 | | snapshot.num-retained.min | 10 | 保留的最小快照数量 | | snapshot.num-retained.max | Integer.MAX_VALUE | 保留的最大快照数量 | | snapshot.expire.execution-mode | sync | 过期执行模式(sync/async) | | snapshot.expire.limit | 10 | 单次最多过期快照数 |

过期策略执行逻辑

Paimon 采用三级保护机制确保快照安全：

数量保护：当快照数 < min 时，不执行过期
时间保护：快照数 ≥ min 后，按保留时间过滤
上限保护：最终保留的快照数不超过 max

实际案例解析

假设配置为：

min=2
max=5
保留时间=1小时

快照序列变化如下：

初始状态：
1(10:00), 2(10:20), 3(10:40), 4(11:00)

写入5(11:20)后：
1因超时被清理 → 保留2,3,4,5

写入6(11:30)后：
2超时被清理 → 保留3,4,5,6

写入7(11:35)后：
无过期 → 保留3,4,5,6,7

写入8(11:36)后：
3因数量超限被清理 → 保留4,5,6,7,8

快照回滚操作

当需要将表恢复到历史状态时，可以使用快照回滚功能。

Flink SQL 方式

CALL sys.rollback_to(
  `table` => 'mydb.mytable', 
  snapshot_id => 12345
);

Java API 方式

Table table = ...;
table.rollbackTo(12345);  // 回滚到指定快照ID

回滚后，所有后续快照将被清除，表状态完全恢复到指定快照时刻。

孤儿文件清理

在异常情况下，可能会有未被任何快照引用的"孤儿文件"残留在存储中。Paimon 提供专门的清理工具：

使用SQL命令

-- 清理单表
CALL sys.remove_orphan_files(
  `table` => 'mydb.mytable',
  older_than => '2023-10-31 12:00:00'
);

-- 清理整个数据库
CALL sys.remove_orphan_files(
  `table` => 'mydb.*',
  older_than => '2023-10-31 12:00:00'
);