数据湖技术之Paimon

原创

已于 2024-01-08 10:15:33 修改 · 2.8k 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-01-05 09:30:57 首次发布

本文介绍了Apache Paimon流数据湖平台，它结合Flink实时计算与Lakehouse架构优势。阐述其读/写、生态系统等特性，介绍核心概念如Snapshot、Partition等，还提及CDC集成方式及与Flink集成的写入、读取性能，多writer并发写入、表管理和缩放Bucket等进阶内容。

一、简介

Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，推出新一代Streaming Lakehouse技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。

Apache Paimon是一个流数据湖平台，具有高速数据摄取、变更日志跟踪和高效的实时分析的能力。

1.1 读/写

Paimon支持多种读/写数据和执行OLAP查询的方式

（1）对于读取，它支持以下方式消费数据：

从历史快照（批处理模式）

从最新的偏移量（在流模式下）

以混合方式读取增量快照

（2）对于写入，它支持来自数据库变更日志（CDC）的流式同步或来自离线数据的批量插入/覆盖。

1.2 生态系统

除了Apache Flink外，Paimon还支持Apache Hive、Apache Spark、Trino等其他计算引擎的读取。

1.3 内部

在底层，Paimon将列式文件存储在文件系统/对象存储上，并使用LSM树结构来支持大量数据更新和高性能查询。

1.4 统一存储

对于Apache Flink这样的流引擎，通常有三种类型的连接器：

消息队列：例如Apache Kafka，在源阶段和中间阶段都使用它，以保证延迟保持在秒级。
OLAP系统：例如Clickhouse，它以流方式接收处理后的数据并为用户的即席查询提供服务
批量存储：例如Apache Hive，它支持传统批处理的各种操作，包括INSERT、OVERWRIT

Paimon提供表抽象，它的使用方式与传统数据库没有什么区别：

在批处理模式下，它就像一个Hive表，支持Batch SQL的各种操作。查询它以查看最新的快照。
在流执行模式下，它的作用就像一个消息队列，查询它的行为就像从历史数据永不过期的消息队列中查询流更改日志。

二、核心特性

1）统一批处理和流处理

批量写入和读取、流式更新、变更日志生成，全部支持。

2）数据湖能力

低成本、高可靠性、可扩展的元数据。 Apache Paimon 具有作为数据湖存储的所有优势。

3）各种合并引擎

按照您喜欢的方式更新记录。保留最后一条记录、进行部分更新或将记录聚合在一起，由您决定。

4）变更日志生成

Apache Paimon 可以从任何数据源生成正确且完整的变更日志，从而简化您的流分析。

5）丰富的表类型

除了主键表之外，Apache Paimon还支持append-only表，提供有序的流式读取来替代消息队列。

6）模式演化

Apache Paimon 支持完整的模式演化。您可以重命名列并重新排序。

三、基本概念

1.1 Snapshot

快照捕获表在某个时间点状态。用户可以通过最新的快照来访问表的最新数据。通过时间旅行，用户还可以通过较早的快照访问表的先前状态。

1.2 Partition

Paimon采用与Apache Hive相同的分区概念来分离数据。

1.3 Bucket

未分区表或分区表中分区被细分为存储桶，以便为可用于更有效查询的数据提供额外的结构。

桶的范围由记录中的一列或多列的哈希值确定。用户可以通过提供bucket-key选项来指定分桶列。如果未指定bucket-key分桶列选项，则主键（如果已定义）或完整记录将用作存储桶键。

桶是读写的最小存储单元，因此桶的数量限制了最大处理并行度。不过这个数字不应该太大，因为它会导致大量小文件和低读取性能。一般来说，建议每个桶的数据大小为1GB左右。

1.4 Consistency Guarantees一致性保证

Paimon Writer使用两阶段提交协议以原子方式将一批记录提交到表中。每次提交在提交时最多生成两个快照。

对于任意两个同时修改表的writer，只要他们不修改同一个存储桶，他们的提交都是可序列化的。如果他们修改同一个存储桶，则仅保证快照隔离。也就是说，最终表的状态可能是两次提交的混合，但不会丢失任何更改。

1.5 文件布局

一张表的所有文件都存储在一个基本目录下。Paimon文件以分层方式组织。下图说明了文件布局。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。