Flink Icerberg 离线数仓-维度建模（一）

原创

已于 2022-07-04 16:07:36 修改 · 905 阅读

CC 4.0 BY-SA版权

文章标签：

于 2022-07-04 13:46:57 首次发布

Apache Iceberg是一种用于大型分析数据集的开放表格，Iceberge向Trino和Spark添加了使用高性能格式的表，就像Sql表一样。

Iceberg为了避免出现不变要的一些意外，表结构和组织并不会实际删除，用户也不需要特意了解分区便可进行快速查询。

（1）Iceberg的表支持快速添加、删除、更新或重命名操作

（2）将分区列进行隐藏，避免用户错误的使用分区和进行极慢的查询。

（3）分区列也会随着表数据量或查询模式的变化而自动更新。

（4）表可以根据时间进行表快照，方便用户根据时间进行检查更改。

（5）提供版本回滚，方便用户纠错数据。

ApacheIceberg是为大表而建的，Iceberg用于生产中，其中单表数据量可包含10pb左右数据，甚至可以在没有分布式SQL引擎的情况下读取这些巨量数据。

（1）查询计划非常迅速，不需要分布式SQL引擎来读取数据

（2）高级过滤：可以使用分区和列来过滤查询这些数据

（3）可适用于任何云存储

（4）表的任何操作都是原子性的，用户不会看到部分或未提交的内容。

（5）使用多个并发器进行写入，并使用乐观锁重试的机制来解决兼容性问题

（1）集成性

数仓中存储的数据来源于多个数据源，原始数据在不同数据源中的存储方式各不相同。要整合成为最终的数据集合，需要从数据源经过一系列抽取、清洗、转换的过程。

（2）稳定性

数仓中保存的数据是历史记录，不允许被修改。用户只能通过分析工具进行查询和分析。

（3）