IceBerg数据湖_简介002_对比IceBerg和Hive_hive元数据查询慢导致iceberg的产生---大数据之_数据湖框架Apache Iceberg工作笔记0002

Apache Iceberg是一种表格式管理工具,位于数据存储和计算引擎之间,如Spark。相较于Hive,Netflix因Hive元数据查询速度慢而创建了Iceberg。Hive的分区方式导致大量目录,查询时需通过MySQL获取分区信息后再在HDFS上逐个扫描,而Iceberg将元数据存储在内部,直接定位到HDFS具体文件,显著提高查询效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

可以看到Iceberg处于,数据存储之上,计算引擎之下,中间的这个部分。

然后我们再来看,主要是iceberg是表格式的,这里他在存储之上,在计算引擎之下,这里的计算引擎可以是spark,如果类比hive,那么iceberg也提供了类似表格的管理方式。

然后继续来看,这里iceberg,我们对比一下hive来说,因为Netflix公司,就那个拍电影的公司,之前用的也是hive处理,但是发现了一个问题,

因为我们知道hive支持数据的分区,分区其实就是一个个的目录对吧,对应他在hdfs上的一个个的目录,比如我们要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值