数据湖的选型(delta iceberg hudi)以及比对

原创

已于 2023-05-25 21:10:35 修改 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #hadoop #spark

于 2023-04-18 08:50:20 首次发布

数据湖的选型

此文章只是作为文稿记录，且截止到2022年11月份

Hudi（0.12.0）支持spark 3.3.x 3.1.x

是 Hadoop Upserts Deletes and Incrementals 的简写
Hudi在华为的实践

clustering

支持常见的order以及z-order(里面以后优化https://github.com/delta-io/delta/pull/1149)、Hibert
FileSkipping依赖于 min-max统计信息，BloomFilter，BitMap，二级索引
DataSkipping 可以通过结合数据布局以及FileSKipping做更好的优化

MDT(MetaDataTable）

位于Hudi表的.hoodie目录
Column_stats/BloomFilter
高性能的fileList
对超大规模的数据集时，FileList是不可避免的操作，在HDFS上进行该操作还可以接受，一旦涉及到对象存储，大规模的FileList效率及其低下，Hudi引入MDT将文件
信息直接保存下来，避免了大规模的FileList
有自己独立的元数据管理服务？如果有，怎么实现的？

支持MOR COW
- merge on read/copy on write
- 快速 upsert（支持SQL）https://hudi.apache.org/docs/quick-start-guide#mergeinto
  Hudi/Iceberg/deltalake
表有主键的概念
用于定位数据的位置以便于高效的读写操作，
具体index分 Bloom index，simple index，Hbase index, Hash index
支持多种存储HDFS，OSS，S3
和OSS的集成 https://hudi.apache.org/docs/oss_hoodie/
和MINio的集成 https://mp.weixin.qq.com/s/jBciMVsdWmRHRjEyyckQlQ
支持update upsert（merge）参考 HoodieAnalysis的 updataTable（spark把这个逻辑计划留了出来）支持CDC CDC怎么实现的？（记录级别还是表级别）
datasource 是基于spark DataSource V1
支持 flink sql upsert
详见 HoodieTableSink的getSinkRuntimeProvider
自己实现了小文件的合并

Iceberg（0.14.1）支持spark 3.3.x 支持 3.1.x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。