Flink Icerberg 离线数仓-维度建模(一)

数据仓库的一般架构

 

Apache Iceberg

Apache Iceberg是一种用于大型分析数据集的开放表格,Iceberge向Trino和Spark添加了使用高性能格式的表,就像Sql表一样。

Iceberg为了避免出现不变要的一些意外,表结构和组织并不会实际删除,用户也不需要特意了解分区便可进行快速查询。

(1)Iceberg的表支持快速添加、删除、更新或重命名操作

(2)将分区列进行隐藏,避免用户错误的使用分区和进行极慢的查询。

(3)分区列也会随着表数据量或查询模式的变化而自动更新。

(4)表可以根据时间进行表快照,方便用户根据时间进行检查更改。

(5)提供版本回滚,方便用户纠错数据。

ApacheIceberg是为大表而建的,Iceberg用于生产中,其中单表数据量可包含10pb左右数据,甚至可以在没有分布式SQL引擎的情况下读取这些巨量数据。

(1)查询计划非常迅速,不需要分布式SQL引擎来读取数据

(2)高级过滤:可以使用分区和列来过滤查询这些数据

(3)可适用于任何云存储

(4)表的任何操作都是原子性的,用户不会看到部分或未提交的内容。

(5)使用多个并发器进行写入,并使用乐观锁重试的机制来解决兼容性问题

数仓的特点

(1)集成性

数仓中存储的数据来源于多个数据源,原始数据在不同数据源中的存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。

(2)稳定性

数仓中保存的数据是历史记录,不允许被修改。用户只能通过分析工具进行查询和分析。

(3)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值