Delta Lake项目迁移指南：从传统数据源到Delta Lake的平滑过渡-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00600/article/details/148441405

Delta Lake项目迁移指南：从传统数据源到Delta Lake的平滑过渡

delta An open-source storage framework that enables building a Lakehouse architecture with compute engines including Spark, PrestoDB, Flink, Trino, and Hive and APIs 项目地址: https://gitcode.com/gh_mirrors/del/delta

前言

Delta Lake作为新一代数据湖存储解决方案，为大数据处理带来了事务支持、版本控制等关键特性。本文将全面介绍如何将现有工作负载迁移到Delta Lake，以及在不同版本间升级时的注意事项。

Delta Lake与传统数据源的关键差异

Delta Lake在设计理念上与传统的Parquet和Hive数据源有显著不同，主要体现在以下几个方面：

自动化管理特性

Delta Lake自动处理以下操作，开发者无需手动干预：

分区管理：
- 自动跟踪表的分区信息
- 数据增删时自动更新分区列表
- 不再需要执行ALTER TABLE [ADD|DROP] PARTITION或MSCK命令
分区读取优化：
- 传统方式：spark.read.format("parquet").load("/data/date=2017-01-01")
- Delta Lake方式：spark.read.delta("/data").where("date = '2017-01-01'")
- 优势：通过事务日志快速定位文件，避免目录扫描开销

禁止的操作

为确保数据一致性，以下操作应避免：

手动修改数据文件：
- Delta Lake依赖事务日志保证原子性
- 直接修改文件可能导致数据不一致
- 应使用官方提供的API进行数据操作
外部直接读取：
- 不应绕过Delta Lake接口直接读取底层文件
- 必须使用Delta Lake提供的读取方式

迁移实践：从Parquet到Delta Lake

方法一：另存为Delta表（推荐）

# 步骤1：读取Parquet数据并保存为Delta格式
data = spark.read.format("parquet").load("/data-pipeline")
data.write.format("delta").save("/tmp/delta/data-pipeline/")

# 步骤2：创建Delta表
spark.sql("CREATE TABLE events USING DELTA LOCATION '/tmp/delta/data-pipeline/'")

适用场景：需要保留原始数据不变，创建新的Delta表副本。

方法二：原地转换（高级）

-- 选项1：直接转换文件格式
CONVERT TO DELTA parquet.`/data-pipeline/`
CREATE TABLE events USING DELTA LOCATION '/data-pipeline/'

-- 选项2：先创建Parquet表再转换
CREATE TABLE events USING PARQUET OPTIONS (path '/data-pipeline/')
CONVERT TO DELTA events

适用场景：希望直接在原数据位置转换，节省存储空间。

版本迁移指南

从Delta 3.0以下升级到3.0+

关键变更：

Maven构件名称从delta-core变更为delta-spark
更新依赖时需要修改构建配置

从Delta 2.1.1以下升级到2.2+

统计收集变更：

默认在表转换时收集统计信息
如需保持旧行为：CONVERT TO DELTA parquet. NO STATISTICS

从Delta 1.2.1/2.0.0/2.1.0升级到2.0.1/2.1.1+

DynamoDB集成修复：

TTL属性从commitTime重命名为expireTime

需要更新DynamoDB的TTL配置：

# 禁用旧属性
aws dynamodb update-time-to-live --region <region> --table-name <table-name> --time-to-live-specification "Enabled=false, AttributeName=commitTime"

# 启用新属性
aws dynamodb update-time-to-live --region <region> --table-name <table-name> --time-to-live-specification "Enabled=true, AttributeName=expireTime"