OceanBase 如何通过日志观测冻结转储流程?

本文旨在通过日志解析 OceanBase 的冻结转储流程,以其冻结检查线程为切入点,以租户(1002)的线程名为例。

作者:陈慧明,爱可生测试工程师,主要参与 DMP 和 DBLE 自动化测试项目。

爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。

本文共 3200 字,预计阅读需要 10 分钟。

以下内容基于版本:5.7.25 OceanBase_CE 4.2.0.0 (r100000152023080109-8024d8ff45c45cf7c62a548752b985648a5795c3)

基本流程如下:

点击放大

T1002_Occam

1.1 线程介绍

冻结检查线程每 2 秒执行一次检查,一旦需要进行冻结操作,会生成一个检查点任务,并由冻结线程负责处理。可以通 过在日志中检索 “tenant freeze timer task” 来验证该线程是否正常运行。

1.2 日志流程

当需要进行冻结操作时,系统会记录日志输出:“[TenantFreezer] A minor freeze is needed”。触发条件为租户的 active_memstore_used_ 超过了 memstore_freeze_trigger 阈值。在触发后,系统会遍历租户日志流,生成并提交相应的冻结任务到冻结线程中。

succeed to start ls_freeze_task(ret=0, ls_id={id:xxx})

T1002_LSFreeze

2.1 线程介绍

该线程的主要职责是将满足刷盘条件的冻结检查点从 new_create_list 流转至 prepare_list。在执行这一过程中,它会依据 road_to_flush 方法和 ready_for_flush_ 方法所定义的判断条件进行操作。这些条件包括检查 memtablerec_scn 是否处于冻结状态以及是否存在回放引用等因素。

注意:每当初始化一个 memtable 后,会将与之关联的冻结检查点注册到一个名为 new_create_list 的双向链表中。这一过程的具体实现可以在 ObTabletMemtableMgr::create_memtable() 方法中找到。

2.2 日志流程

通过日志记录的信息并不会详细展示流程的所有细节,但可以通过以下信息来判断流程是否正常执行,"road_to_flush end" 也标志着冻结流程完成。

[2023-08-18 06:44:51.285827] INFO  [STORAGE] road_to_flush (ob_data_checkpoint.cpp:333) [1553][T1002_LSFreeze1][T1002][Y0-0000000000000000-0-0] [lt=7] [Freezer] road_to_flush begin(ls_->get_ls_id()={id:1001})
[2023-08-18 06:44:51.285846] INFO  [STORAGE] road_to_flush (ob_data_checkpoint.cpp:341) [1553][T1002_LSFreeze1][T1002][Y0-0000000000000000-0-0] [lt=16] [Freezer] new_create_list to ls_frozen_list success(ls_->get_ls_id()={id:1001})
[2023-08-18 06:44:51.285861] INFO  [STORAGE] road_to_flush (ob_data_checkpoint.cpp:345) [1553][T1002_LSFreeze1][T1002][Y0-0000000000000000-0-0] [lt=3] [Freezer] ls_frozen_list to active_list success(ls_->get_ls_id()={id:1001})
[2023-08-18 06:44:51.285867] INFO  [STORAGE] road_to_flush (ob_data_checkpoint.cpp:355) [1553][T1002_LSFreeze1][T1002][Y0-0000000000000000-0-0] [lt=6] [Freezer] active_list to ls_frozen_list success(ls_->get_ls_id()={id:1001})
[2023-08-18 06:44:51.337395] INFO  [STORAGE] road_to_flush (ob_data_checkpoint.cpp:358) [1553][T1002_LSFreeze1][T1002][Y0-0000000000000000-0-0] [lt=16] [Freezer] road_to_flush end(ls_->get_ls_id()={id:1001})

T1002_Flush

3.1 线程介绍

Flush 线程每 5 秒运行一次,其运行状态可以通过日志信息 “traversal_flush timer task” 来标识。该线程的主要任务是遍历 prepare_list 中的检查点对象,并生成相应的 ObTabletMiniMergeDag 对象作为 DAG 任务执行。

3.2 日志流程

转储的执行对象为数据分片(Tablet),每次转储操作可能涉及多个数据分片。以下以数据分片 ID 为 200001 的数据分片为例来描述流程:

首先,针对数据分片 ID 为 200001,创建并添加相应的 DAG(有向无环图)至任务队列中。

[2023-08-18 06:44:51.335124] INFO  [COMMON] inner_add_dag (ob_dag_scheduler.cpp:3377) [1655][T1002_Flush][T1002][Y0-0000000000000000-0-0] [lt=29] add dag success(dag=0x7fa95f358b20, start_time=0, id=Y0-0000000000000000-0-0, dag->hash()=7887337314793470841, dag_cnt=23, dag_type_cnts=22)
[2023-08-18 06:44:51.335132] INFO  [COMMON] create_and_add_dag (ob_dag_scheduler.h:1119) [1655][T1002_Flush][T1002][Y0-0000000000000000-0-0] [lt=3] success to create and add dag(ret=0, dag=0x7fa95f358b20)

如果 DAG 创建成功,会记录相应的成功标志,即日志中会出现 “schedule tablet merge dag successfully”。同时,该 DAG 的任务类型会标记为 “MINI_MERGE”。

[2023-08-18 06:44:51.335134] INFO  [STORAGE.TRANS] flush (ob_memtable.cpp:2095) [1655][T1002_Flush][T1002][Y0-0000000000000000-0-0] [lt=2] schedule tablet merge dag successfully(ret=0, param={merge_type:"MINI_MERGE", merge_version:0, ls_id:{id:1001}, tablet_id:{id:200001}, report_:null, for_diagnose:false,
...
recommend_snapshot_version:{val:18446744073709551615, v:3}})

T1002_DagSchedu

4.1 线程介绍

根据 DAG 队列中的任务类型,系统会相应地创建对应的线程来执行任务。在这个过程中,会创建一个名为 “T1002_MINI_MERGE” 的线程来执行转储任务。同时,会创建第一个任务,即 ObTabletMergePrepareTask,这个任务的执行最终会触发生成另外两个任务:ObTabletMergeTask 和 ObTabletMergeFinishTask。

4.2 日志流程

在 “T1002_DagScheduler” 线程中,通过 tablet_id 可以筛选出对应的日志。可以找到类型为 “DAG_MINI_MERGE” 的记录,并记录下对应的 task_id (YB427F000001-0006032C0D448715-0-0)。

[2023-08-18 06:44:51.420180] INFO  [SERVER] add_task (ob_sys_task_stat.cpp:142) [1597][T1002_DagSchedu][T1002][Y0-0000000000000000-0-0] [lt=9] succeed to add sys task(task={start_time:1692341091420175, task_id:YB427F000001-0006032C0D448715-0-0, task_type:3, svr_ip:"127.0.0.1:2882", tenant_id:1002, is_cancel:false, comment:"info="DAG_MINI_MERGE";ls_id=1001;tablet_id=200001;compaction_scn=0;extra_info="merge_type="MINI_MERGE"";"})

在线程 “T1002_DagScheduler” 中,通过筛选任务标识 task_id,可以明确看到整个 DAG 任务的调度过程,总计调度了 3 个任务。

[2023-08-18 06:44:51.420180] INFO  [SERVER] add_task (ob_sys_task_stat.cpp:142) [1597][T1002_DagSchedu][T1002][Y0-0000000000000000-0-0] [lt=9] succeed to add sys task(task={start_time:1692341091420175, task_id:YB427F000001-0006032C0D448715-0-0, task_type:3, svr_ip:"127.0.0.1:2882", tenant_id:1002, is_cancel:false, comment:"info="DAG_MINI_MERGE";ls_id=1001;tablet_id=200001;compaction_scn=0;extra_info="merge_type="MINI_MERGE"";"})
[2023-08-18 06:44:51.420192] INFO  [COMMON] schedule_one (ob_dag_scheduler.cpp:2997) [1597][T1002_DagSchedu][T1002][YB427F000001-0006032C0D448715-0-0] [lt=12] schedule one task(task=0x7fa9264c8080, priority="PRIO_COMPACTION_HIGH", group id=0, total_running_task_cnt=6, running_task_cnts_[priority]=6, low_limits_[priority]=6, up_limits_[priority]=6, task->get_dag()->get_dag_net()=NULL)
[2023-08-18 06:44:51.421879] INFO  [COMMON] schedule_one (ob_dag_scheduler.cpp:2997) [1597][T1002_DagSchedu][T1002][YB427F000001-0006032C0D448715-0-0] [lt=8] schedule one task(task=0x7fa9264c81b0, priority="PRIO_COMPACTION_HIGH", group id=0, total_running_task_cnt=6, running_task_cnts_[priority]=6, low_limits_[priority]=6, up_limits_[priority]=6, task->get_dag()->get_dag_net()=NULL)
[2023-08-18 06:44:51.876070] INFO  [COMMON] schedule_one (ob_dag_scheduler.cpp:2997) [1597][T1002_DagSchedu][T1002][YB427F000001-0006032C0D448715-0-0] [lt=16] schedule one task(task=0x7fa9264c8390, priority="PRIO_COMPACTION_HIGH", group id=0, total_running_task_cnt=6, running_task_cnts_[priority]=6, low_limits_[priority]=6, up_limits_[priority]=6, task->get_dag()->get_dag_net()=NULL)

T1002_MINI_MERG

5.1 线程介绍

这个线程主要负责执行在 “T1002_DagScheduler” 中调度的任务。

5.2 日志流程

从完整日志中筛选出对应的任务标识 task_id,我们可以清楚地看到总共进行了 3 个任务调度。这里将日志分成了以下 3 个部分。

5.2.1 ObTabletMergePrepareTask

Prepare 任务:主要涉及一些初始化工作和检查项,为后续的任务做准备。

[2023-08-18 06:44:51.420180] INFO  [SERVER] add_task (ob_sys_task_stat.cpp:142) [1597][T1002_DagSchedu][T1002][Y0-0000000000000000-0-0] [lt=9] succeed to add sys task(task={start_time:1692341091420175, task_id:YB427F000001-0006032C0D448715-0-0, task_type:3, svr_ip:"127.0.0.1:2882", tenant_id:1002, is_cancel:false, comment:"info="DAG_MINI_MERGE";ls_id=1001;tablet_id=200001;compaction_scn=0;extra_info="merge_type="MINI_MERGE"";"})
[2023-08-18 06:44:51.420192] INFO  [COMMON] schedule_one (ob_dag_scheduler.cpp:2997) [1597][T1002_DagSchedu][T1002][YB427F000001-0006032C0D448715-0-0] [lt=12] schedule one task(task=0x7fa9264c8080, priority="PRIO_COMPACTION_HIGH", group id=0, total_running_task_cnt=6, running_task_cnts_[priority]=6, low_limits_[priority]=6, up_limits_[priority]=6, task->get_dag()->get_dag_net()=NULL)
...
[2023-08-18 06:44:51.421833] INFO  [STORAGE.COMPACTION] process (ob_tablet_merge_task.cpp:976) [1561][T1002_MINI_MERG][T1002][YB427F000001-0006032C0D448715-0-0] [lt=20] succeed to init merge ctx(task={this:0x7fa9264c8080, type:15, status:2, dag:{ObIDag:{this:0x7fa95f358b20, type:0, name:"MINI_MERGE", id:YB427F000001-0006032C0D448715-0-0, dag_ret:0, dag_status:2, start_time:1692341091420191, running_task_cnt:1, indegree:0, consumer_group_id:0, hash:7887337314793470841}, param:{merge_type:"MINI_MERGE", merge_version:0, ls_id:{id:1001}, tablet_id:{id:200001}, report_:null, for_diagnose:false, is_tenant_major_merge:false, need_swap_tablet_flag:false}, compat_mode:0, ctx:{sstable_version_range:{multi_version_start:1, base_version:0, snapshot_version:1692341091113671451}, scn_range:{start_scn:{val:1, v:0}, end_scn:{val:1692341091275445526, v:0}}}}})

5.2.2 ObTabletMergeTask

Merge 任务:该任务的重点在于写入宏块,将多版本的记录融合成一条记录,以实现数据的整理和合并。

[2023-08-18 06:44:51.421879] INFO  [COMMON] schedule_one (ob_dag_scheduler.cpp:2997) [1597][T1002_DagSchedu][T1002][YB427F000001-0006032C0D448715-0-0] [lt=8] schedule one task(task=0x7fa9264c81b0, priority="PRIO_COMPACTION_HIGH", group id=0, total_running_task_cnt=6, running_task_cnts_[priority]=6, low_limits_[priority]=6, up_limits_[priority]=6, task->get_dag()->get_dag_net()=NULL)
...
...
[2023-08-18 06:44:51.875958] INFO  [STORAGE.COMPACTION] process (ob_tablet_merge_task.cpp:1555) [1595][T1002_MINI_MERG][T1002][YB427F000001-0006032C0D448715-0-0] [lt=25] merge macro blocks ok(idx_=0, task={this:0x7fa9264c81b0, type:1, status:2, dag:{ObIDag:{this:0x7fa95f358b20, type:0, name:"MINI_MERGE", id:YB427F000001-0006032C0D448715-0-0, dag_ret:0, dag_status:2, start_time:1692341091420191, running_task_cnt:1, indegree:0, consumer_group_id:0, hash:7887337314793470841}, param:{merge_type:"MINI_MERGE", merge_version:0, ls_id:{id:1001}, tablet_id:{id:200001}, report_:null, for_diagnose:false, is_tenant_major_merge:false, need_swap_tablet_flag:false}, compat_mode:0, ctx:{sstable_version_range:{multi_version_start:1, base_version:0, snapshot_version:1692341091113671451}, scn_range:{start_scn:{val:1, v:0}, end_scn:{val:1692341091275445526, v:0}}}}})

5.2.3 ObTabletMergeFinishTask

Finish 任务:主要负责生成新的 MINI SSTable 并释放相关 MemTable。

 [2023-08-18 06:44:51.876070] INFO  [COMMON] schedule_one (ob_dag_scheduler.cpp:2997) [1597][T1002_DagSchedu][T1002][YB427F000001-0006032C0D448715-0-0] [lt=16] schedule one task(task=0x7fa9264c8390, priority="PRIO_COMPACTION_HIGH", group id=0, total_running_task_cnt=6, running_task_cnts_[priority]=6, low_limits_[priority]=6, up_limits_[priority]=6, task->get_dag()->get_dag_net()=NULL)
...

[2023-08-18 06:44:51.876907] INFO  [STORAGE.COMPACTION] create_sstable (ob_tablet_merge_ctx.cpp:344) [1589][T1002_MINI_MERG][T1002][YB427F000001-0006032C0D448715-0-0] [lt=50] succeed to merge sstable(param={table_key:{tablet_id:{id:200001}, column_group_idx:0, table_type:"MINI", scn_range:{start_scn:{val:1, v:0}, end_scn:{val:1692341091275445526, v:0}}}, sstable_logic_seq:0, schema_version:1692341087064224, ...
...

[2023-08-18 06:44:51.889896] INFO  [STORAGE] release_memtables (ob_i_memtable_mgr.cpp:164) [1589][T1002_MINI_MERG][T1002][YB427F000001-0006032C0D448715-0-0] [lt=6] succeed to release memtable(ret=0, i=1, scn={val:1692341091275445526, v:0})
[2023-08-18 06:44:51.889938] INFO  [STORAGE.COMPACTION] process (ob_tablet_merge_task.cpp:1209) [1589][T1002_MINI_MERG][T1002][YB427F000001-0006032C0D448715-0-0] [lt=12] sstable merge finish(ret=0, merge_info={is_inited:true, sstable_merge_info:{tenant_id:1002, ls_id:{id:1001}, tablet_id:{id:200001}, compaction_scn:1692341091275445526, merge_type:"MINI_MERGE", merge_cost_time:454652, merge_start_time:1692341091421154, merge_finish_time:1692341091875806, dag_id:YB427F000001-0006032C0D448715-0-0, occupy_size:63203471, new_flush_occupy_size:63203471, original_size:75545791, compressed_size:62951855, macro_block_count:31, multiplexed_macro_block_count:0, new_micro_count_in_new_macro:3823, multiplexed_micro_count_in_new_macro:0, total_row_count:333312, incremental_row_count:333312,
...

最终,DAG 任务执行完毕后,相关任务会被清除,标志着数据冻结和转储流程的成功执行。

[2023-08-18 06:44:51.890015] INFO  [COMMON] finish_dag_ (ob_dag_scheduler.cpp:2563) [1589][T1002_MINI_MERG][T1002][YB427F000001-0006032C0D448715-0-0] [lt=19] dag finished(dag_ret=0, runtime=469823, dag_cnt=9, dag_cnts_[dag.get_type()]=9, &dag=0x7fa95f358b20, dag={ObIDag:{this:0x7fa95f358b20, type:0, name:"MINI_MERGE", id:YB427F000001-0006032C0D448715-0-0, dag_ret:0, dag_status:3, start_time:1692341091420191, running_task_cnt:0, indegree:0, consumer_group_id:0, hash:7887337314793470841}, param:{merge_type:"MINI_MERGE", merge_version:0, ls_id:{id:1001}, tablet_id:{id:200001}, report_:null, for_diagnose:false, is_tenant_major_merge:false, need_swap_tablet_flag:false}, compat_mode:0, ctx:{sstable_version_range:{multi_version_start:1, base_version:0, snapshot_version:1692341091113671451}, scn_range:{start_scn:{val:1, v:0}, end_scn:{val:1692341091275445526, v:0}}}})
[2023-08-18 06:44:51.890035] INFO  [SERVER] del_task (ob_sys_task_stat.cpp:171) [1589][T1002_MINI_MERG][T1002][YB427F000001-0006032C0D448715-0-0] [lt=18] succeed to del sys task(removed_task={start_time:1692341091420175, task_id:YB427F000001-0006032C0D448715-0-0, task_type:3, svr_ip:"127.0.0.1:2882", tenant_id:1002, is_cancel:false, comment:"info="DAG_MINI_MERGE";ls_id=1001;tablet_id=200001;compaction_scn=0;extra_info="merge_type="MINI_MERGE"";"})

更多技术文章,请访问:https://opensource.actionsky.com/

关于 SQLE

SQLE 是一款全方位的 SQL 质量管理平台,覆盖开发至生产环境的 SQL 审核和管理。支持主流的开源、商业、国产数据库,为开发和运维提供流程自动化能力,提升上线效率,提高数据质量。

SQLE 获取

类型地址
版本库https://github.com/actiontech/sqle
文档https://actiontech.github.io/sqle-docs/
发布信息https://github.com/actiontech/sqle/releases
数据审核插件开发文档https://actiontech.github.io/sqle-docs/docs/dev-manual/plugins/howtouse
<think>嗯,用户想用MAT工具分析堆转储文件来解决JVM内存不断增长的问题。首先,我需要回忆一下之前提供的关于内存泄漏的原因和解决方法,特别是关于MAT的使用部分。用户可能已经生成了堆转储文件,但不知道如何具体分析。根据引用[1],MAT可以分析JVM Dump文件,帮助定位内存泄漏。引用[3]提到MAT能计算对象的Retained Size,找出阻止垃圾回收的对象。引用[4]的例子显示通过MAT查看对象的引用链,确定OOM的原因。引用[5]的例子是关于生成堆转储并使用MAT分析的步骤。 用户需要详细的步骤指导。首先,生成堆转储文件,可以用jmap或者JVM参数触发。然后,使用MAT打开文件,查看泄漏疑点报告,分析支配树,查找大对象和GC根路径。需要结合这些步骤,逐步引导用户如何操作。可能用户会遇到如何生成堆转储的问题,或者如何解读MAT中的各种视图,比如直方图、支配树。需要强调关键步骤,比如检查Retained Size,查看GC根,以及如何识别潜在的内存泄漏点,比如重复的字符串或未关闭的资源。 另外,用户的问题可能涉及内存泄漏和内存溢出的区别,需要区分清楚。引用[2]提到内存泄漏和溢出的概念,但用户现在更关注如何用MAT解决内存增长问题,所以重点放在分析步骤上。 需要确保回答结构清晰,分步骤说明,并引用相关的引用点。例如,生成堆转储的方法参考引用[5],分析步骤参考引用[3]和[4],优化建议参考引用[1]和[2]。最后,生成相关问题时要围绕MAT使用、内存泄漏分析工具、JVM参数调优等,确保问题与用户当前需求相关,帮助他们进一步深入学习。</think>### 使用MAT工具分析堆转储文件解决JVM内存泄漏的步骤 --- #### 一、生成堆转储文件 1. **通过`jmap`命令生成** 在应用运行时,使用以下命令捕获堆转储: ```bash jmap -dump:format=b,file=heapdump.hprof <pid> ``` 其中`<pid>`为Java进程ID,可通过`jps`命令查看[^5]。 2. **通过JVM参数触发自动转储** 在启动参数中添加以下配置,当发生OOM时自动生成堆转储: ```bash -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=./heapdump.hprof ``` --- #### 二、使用MAT分析堆转储文件 1. **打开堆转储文件** - 启动MAT工具,选择`File → Open Heap Dump`加载`heapdump.hprof`文件[^1]。 2. **查看泄漏疑点报告(Leak Suspects)** - MAT会自动生成初步分析报告,标记可疑内存泄漏点(如大对象或重复对象)[^3]。 - 示例:若发现`String`对象占用了80%内存,需检查是否有未释放的缓存或大字符串操作[^4]。 3. **分析支配树(Dominator Tree)** - 在`Dominator Tree`视图中,按`Retained Heap`排序,找到占用内存最大的对象。 - 示例:若`FooService`类持有大量`StringBuilder`对象未被释放,需检查相关代码逻辑[^4]。 4. **查看对象引用链(Path to GC Roots)** - 右键点击可疑对象,选择`Path to GC Roots → exclude weak/soft references`,查看阻止回收的强引用链。 - 若发现对象被静态集合(如`static List`)持有,需优化代码清理集合[^2]。 5. **对比堆转储文件(Baseline Heap Dump)** - 在内存增长过程中多次生成堆转储,通过MAT的`Compare Basket`功能对比对象增量,定位增长根源[^1]。 --- #### 三、关键分析场景与解决方法 1. **场景1:静态集合未清理** - **特征**:`static List`或`Map`占内存较高。 - **解决**:在不再使用时调用`clear()`或设置为`null`[^2]。 2. **场景2:资源未关闭** - **特征**:`FileInputStream`或数据库连接对象残留。 - **解决**:在`finally`块中显式调用`close()`[^2]。 3. **场景3:Stream操作导致内存膨胀** - **特征**:`Stream`或`StringBuilder`操作引发OOM(如大量中间对象未释放)[^4]。 - **解决**:优化流式处理逻辑,减少中间对象生成。 --- #### 四、MAT高级功能 1. **直方图(Histogram)** - 按类统计对象数量和内存占用,快速定位异常类。 - 示例:若`char[]`类占用内存异常,可能由字符串拼接导致[^5]。 2. **OQL(Object Query Language)** - 使用类SQL语法查询特定对象,例如: ```sql SELECT * FROM java.lang.String WHERE value.toString().startsWith("ERROR_") ``` 用于筛查特定前缀的字符串泄漏[^1]。 3. **内存泄漏分析报告** - 通过`Reports → Leak Suspects`生成详细报告,包含对象引用路径和修复建议[^3]。 --- #### 五、优化建议 1. **定期监控内存** - 使用`jstat -gc <pid> 1000`观察GC频率和内存回收效率[^2]。 2. **代码规范** - 避免在长生命周期对象中持有短生命周期对象的引用(如Handler持有Activity引用)[^3]。 3. **配置调优** - 根据分析结果调整`-Xmx`(最大堆内存)或选择合适的垃圾回收器(如G1)[^4]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值