数据仓库的一般架构

Apache Iceberg
Apache Iceberg是一种用于大型分析数据集的开放表格,Iceberge向Trino和Spark添加了使用高性能格式的表,就像Sql表一样。
Iceberg为了避免出现不变要的一些意外,表结构和组织并不会实际删除,用户也不需要特意了解分区便可进行快速查询。
(1)Iceberg的表支持快速添加、删除、更新或重命名操作
(2)将分区列进行隐藏,避免用户错误的使用分区和进行极慢的查询。
(3)分区列也会随着表数据量或查询模式的变化而自动更新。
(4)表可以根据时间进行表快照,方便用户根据时间进行检查更改。
(5)提供版本回滚,方便用户纠错数据。
ApacheIceberg是为大表而建的,Iceberg用于生产中,其中单表数据量可包含10pb左右数据,甚至可以在没有分布式SQL引擎的情况下读取这些巨量数据。
(1)查询计划非常迅速,不需要分布式SQL引擎来读取数据
(2)高级过滤:可以使用分区和列来过滤查询这些数据
(3)可适用于任何云存储
(4)表的任何操作都是原子性的,用户不会看到部分或未提交的内容。
(5)使用多个并发器进行写入,并使用乐观锁重试的机制来解决兼容性问题
数仓的特点
(1)集成性
数仓中存储的数据来源于多个数据源,原始数据在不同数据源中的存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。
(2)稳定性
数仓中保存的数据是历史记录,不允许被修改。用户只能通过分析工具进行查询和分析。
(3)

最低0.47元/天 解锁文章
1187

被折叠的 条评论
为什么被折叠?



