大数据之Hudi数据湖_基本概念_文件布局_文件管理 & 基本概念_索引_的原理_索引选项_全局索引与非全局索引---大数据之Hudi数据湖工作笔记0007

本文介绍了Hudi中的MOR和COW表类型,重点讨论了布隆过滤器在Hudi数据湖中的应用,用于提高数据更新效率。同时,文章探讨了Hudi的不同索引类型,包括Bloom Index、Simple Index和HBase Index,以及全局与非全局索引的选择策略。布隆索引因其快速的不存在判断和适应实时更新场景的特性,成为适用于事实表(如订单数据)的优选。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 这里对于hudi中有两种表,一种是MOR表,这个是hudi表,一种是COW表,

MOR表会产生日志,因为会有增删改的日子对数据的,然后COW是没有日志的,COW是copy on write

的意思.是复制的数据所以不会牵扯到该删的操作.

这里因为hudi有多版本控制,所以这里就有了合并日志和基本文件的操作,合并以后产生一个新的文件片.

还要知道,这里hudi用来操作数据的方式是,用的布隆过滤,而布隆过滤是有假阳性的,什么是假阳性,

这里可以看专门的一篇写布隆过滤的文章,假阳性就是,布隆过滤说没有那肯定这个数据不存在,

如果布隆过滤说有,那么不一定有.这个就是假阳性.

积累工作中常见算法_布隆过滤器_Bloom Filter_你说有那不一定有_2023-10-18 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值