开源大数据:Iceberg新一代数据湖技术实践

数据湖三剑客

1、Iceberg 基本结构

1-1、Iceberg 表格式

        Apache Iceberg是一种用于大型分析数据集的开放表格格式。Iceberg向Trino和Spark添加了使用高性能格式的表,其工作方式就像SQL表一样

2、Icebreg 核心

        通过快照方式,在时间延续上记录表的所有变化

        2-1、某个时间节点,表的所有数据文件列表

        2-2、每次更新操作都生成新的快照

        2-3、实现数据:原子性、读写分离、时间延续和回滚、增量消费

3、Icebreg 元数据管理

        3-1、元数据:结构、分区信息、属性、快照记录

        3-2、分成:HMS 或文件内容、元数据JSON、快照、数据文件

4、Icebreg 应用

        4-1、优化导入流程:Icebreg 提供ACID 事务能力,读写分离,写入可见,不影响当前数据处理,简化ETL

        4-2、多种分析引擎:优秀的内核便于适应各种特定引擎,目前支持:Spark、Trino、Flink、Presto、Hive。

        4-3、统一存储:批任务和流任务可以使用相同的存储数据模型(文件系统、对象存储),数据不再孤立,支持隐藏分区和分区进化,方便业务进行数据分区策略,Parquet,ORC,Avro 列存储和行存储的兼顾。

        4-4、增量处理能力:Icebreg 支持流式数据的落地和增量消费、Spark Structured Straming 适配,Flink sink .source适配

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值