数据湖对比（hudi,iceberg,paimon,Delta）

刘狗

已于 2024-05-24 14:40:01 修改

阅读量1.3k

点赞数 3

文章标签：大数据

于 2024-05-24 14:39:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40954192/article/details/139174131

版权

Delta

数据湖	Delta
更新原理	update/delete/merge 实现均基于spark的join功能。
定位	做基于spark做流批一体的数据处理
缺点	本质为批处理。强绑定spark引擎。整体性能相较其他数据湖比较差

hudi

数据湖	hudi
更新原理	通过hudi自定义的主键索引hoodiekey + 布隆过滤器 + 文件join合并实现更新
定位	面向spark，为了解决在hadoop体系内数据更新和增量查询的问题。定位是实现数仓+数据库的功能。
缺点	本质为批处理整体架构耦合性强，系统设计复杂，各个引擎之间的兼容性较差，参数众多。趋势在不断的在完善面向批处理的架构细节改造，对spark友好，无法彻底适配流处理更新能力。

iceberg

数据湖	iceberg
更新原理	写入时数据分为delete 和 insert 文件，查询时通过序列号定位文件生成先后 + join 得到最后结果
定位	官方定位是面向海量数据分析场景，底层设计抽象，通用标准设计。不依赖任何计算引擎。
缺点	本质为批处理，主打离线数据湖和扩展性在国外的应用场景主要是离线取代 Hive，虽然扩展性强，也导致计算引擎有较多优化空间，后续发展难以迅速，需要涉及众多对接引擎。

paimon

数据湖	paimon
更新原理	通过内存 + 磁盘实现lsm数据结构
定位	`CDC更新入湖，可被准实时查询，并大幅简化入湖架构。支持 Partial-Update 能力，基于相同的主键做到部分数据更新，也可以根据该功能实现各个流实时地打宽。支持流入的数据生成变更日志，给下游更好的流计算。简化流计算链路。 Paimon 作为湖存储格式，有很强的 Append 处理，并给 Append 表上多了流读流写Z-Order排序后加速查询的能力。`
优点	统一的批处理和流处理作为数据湖存储系统，Paimon具有低成本、高可靠性、可扩展的元数据等特性丰富的合并引擎自动生成变更日志丰富的表类型支持表结构变更同步(也可以称为Schema模式演变) 提供流读增强，tag视图，数据打宽等多种能力

总结：

个人更倾向于paimon的数据湖能力，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。总结一句话就是真正面向实时更新而设计的数据湖格式。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

刘狗 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。