【Flink系列】- RocksDB增量模式checkpoint大小持续增长的问题及解决

原创

已于 2022-03-31 11:54:46 修改 · 7.6k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#流计算 #hadoop #flink

于 2022-03-31 10:28:07 首次发布

背景

Flink版本：1.13.5

一个使用FlinkSQL开发的生产线上任务，使用Tumble Window做聚和统计，并且配置table.exec.state.ttl为7200000，设置checkpoint周期为5分钟，使用rocksdb的增量模式。

正常情况下，任务运行一段时间以后，新增和过期的状态达到动态的平衡，随着RocksDB的compaction，checkpoint的大小会在小范围内上下起伏。

实际观察到，checkpoint大小持续缓慢增长，运行20天以后，从最初了100M左右，增长到了2G，checkpoint的时间也从1秒增加到了几十秒。

源码分析

我们看一下RocksIncrementalSnapshotStrategy.RocksDBIncrementalSnapshotOperation类中的get()方法：

public SnapshotResult<KeyedStateHandle> get(CloseableRegistry snapshotCloseableRegistry) throws Exception {
            boolean completed = false;
            SnapshotResult<StreamStateHandle> metaStateHandle = null;
            Map<StateHandleID, StreamStateHandle> sstFiles = new HashMap();
            HashMap miscFiles = new HashMap();
            boolean var15 = false;

            SnapshotResult var18;
            try {
                var15 = true;
                metaStateHandle = this.materializeMetaData(snapshotCloseableRegistry);
                Preconditions.checkNotNull(metaStateHandle, "Metadata was not properly created.");
                Preconditions.checkNotNull(metaStateHandle.getJobManagerOwnedSnapshot(), "Metadata for job manager was not properly created.");
                this.uploadSstFiles(sstFiles, miscFiles, snapshotCloseableRegistry);
                synchronized(RocksIncrementalSnapshotStrategy.this.materializedSstFiles) {

最低0.47元/天解锁文章