数据湖的选型(delta iceberg hudi)以及比对

数据湖的选型

此文章只是作为文稿记录,且截止到2022年11月份

Hudi(0.12.0)支持spark 3.3.x 3.1.x

是 Hadoop Upserts Deletes and Incrementals 的简写
Hudi在华为的实践

  1. clustering
  • 支持常见的order以及z-order(里面以后优化https://github.com/delta-io/delta/pull/1149)、Hibert
  • FileSkipping依赖于 min-max统计信息,BloomFilter,BitMap,二级索引
  • DataSkipping 可以通过结合数据布局以及FileSKipping做更好的优化
  1. MDT(MetaDataTable)
  • 位于Hudi表的.hoodie目录
  • Column_stats/BloomFilter
  • 高性能的fileList
    对超大规模的数据集时,FileList是不可避免的操作,在HDFS上进行该操作还可以接受,一旦涉及到对象存储,大规模的FileList效率及其低下,Hudi引入MDT将文件
    信息直接保存下来,避免了大规模的FileList
  • 有自己独立的元数据管理服务?如果有,怎么实现的?
  1. 支持MOR COW
    • merge on read/copy on write
    • 快速 upsert(支持SQL)https://hudi.apache.org/docs/quick-start-guide#mergeinto
      Hudi/Iceberg/deltalake
  2. 表有主键的概念
    用于定位数据的位置以便于高效的读写操作,
    具体index分 Bloom index,simple index,Hbase index, Hash index
  3. 支持多种存储HDFS,OSS,S3
    和OSS的集成 https://hudi.apache.org/docs/oss_hoodie/
    和MINio的集成 https://mp.weixin.qq.com/s/jBciMVsdWmRHRjEyyckQlQ
  4. 支持update upsert(merge)参考 HoodieAnalysis的 updataTable(spark把这个逻辑计划留了出来) 支持CDC CDC怎么实现的?(记录级别还是表级别)
  5. datasource 是基于spark DataSource V1
  6. 支持 flink sql upsert
    详见 HoodieTableSink的getSinkRuntimeProvider
  7. 自己实现了小文件的合并

Iceberg(0.14.1)支持spark 3.3.x 支持 3.1.x

实时数据湖是一种数据存储和管理架构,具有实时和可靠的特性。DeltaHudiIceberg是实时数据湖的三种常见的开源工具。 Delta是由Databricks开发的一种用于构建实时数据湖的开源工具。它提供了事务一致性、数据不可变性和快速查询等特性。Delta使用了写时复制技术,可以实现数据的原子性和一致性,并支持合并(merge)操作,使得数据的变能够实时应用于数据湖中。 HudiHadoop Upserts Deletes and Incrementals)是一种由Uber开源的实时数据湖工具。它能够支持插入、新和删除等数据操作,并且具备增量数据的流式处理能力。Hudi还支持异步索引构建和数据快照等功能,能够提供较好的查询性能和数据一致性。 Iceberg是由Netflix开源的一种用于构建实时数据湖的工具。它提供了强大的事务性写入、时间旅行查询和模式演化等功能。Iceberg支持快照(snapshot)和版本控制的方式管理数据,可以实现数据的版本回退和数据架构的演化。 这三种工具都可以用于实时数据湖的构建,但在具体应用上有一些差异。Delta加关注数据湖和Apache Spark的集成,适用于需要高性能和大规模数据处理的场景。Hudi适用于增量数据流的处理和对数据进行实时新的需求。Iceberg注重数据版本管理和数据架构演化的能力。根据具体的业务需求和技术栈选择适合的工具,可以好地构建实时数据湖
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值