LakeSoul CDC表格式详解：实现低延迟数据变更捕获-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01168/article/details/148782519

LakeSoul CDC表格式详解：实现低延迟数据变更捕获

LakeSoul lakesoul-io/LakeSoul: 是一个基于区块链和人工智能技术的去中心化社交平台。适合对区块链技术和人工智能有兴趣的人，特别是想探索这些技术在社交场景下应用的人。特点是采用了区块链技术保障用户隐私和数据安全，同时结合人工智能技术实现智能匹配和推荐功能。项目地址: https://gitcode.com/gh_mirrors/la/LakeSoul

什么是CDC表格式

CDC（Change Data Capture，变更数据捕获）是数据湖架构中重要的数据来源。LakeSoul的CDC表格式设计目标是将在线OLTP数据库的变更以极低延迟（通常只需几分钟）同步到数据湖中，使下游分析应用能够实时获取最新结果，而无需依赖传统的T+1数据库全量导出方式。与普通表相比，CDC表格式增加了对删除操作的支持。

CDC表格式工作原理

LakeSoul通过一个额外的变更操作列（列名可配置）来建模CDC数据。这个列应为字符串类型，包含三种值之一：

insert：表示新增记录
update：表示更新记录
delete：表示删除记录

在数据读取时，LakeSoul会根据这个标记自动处理变更：

批处理读取时：保留最新的insert和update数据，自动过滤delete记录
流式增量读取时：保留所有变更标记（包括delete），在Flink中这些标记会自动转换为RowData对象的RowKind字段

创建CDC表

在Spark中创建CDC表

使用Scala API

import com.dmetasoul.lakesoul.tables.LakeSoulTable
LakeSoulTable.createTable(data, path)
  .shortTableName("cdc_ingestion")
  .hashPartitions("id")
  .hashBucketNum(2)
  .rangePartitions("rangeid")
  .tableProperty("lakesoul_cdc_change_column" -> "change_type")
  .create()

使用SQL

CREATE TABLE table_name (id string, date string, change_type string) USING lakesoul
  PARTITIONED BY (date)
  LOCATION 's3://lakesoul-bucket/table_path'
  TBLPROPERTIES(
    'lakesoul_cdc_change_column'='change_type',
    'hashPartitions'='id',
    'hashBucketNum'='2'
  );

重要说明：