数据湖学习笔记
2021-10-13
1.三个开源数据湖技术框架比较
缺点:
Delta:1.抽象程度不高,需要绑定spark 2.功能不完善
Hudi:1.新版本已经完善支持python和flink,但对flink支持没那么好,和flink集成有一些bug
Iceberg:1.功能没有Hudi完善,做不到小文件合并
2.Apache Hudi核心概念介绍
特性:
index:索引,快速找到想要的内容
文件格式:支持parquet(列式存储),avro(行式存储)
Timelin...
原创
2021-10-13 16:35:10 ·
371 阅读 ·
0 评论