这里对于hudi中有两种表,一种是MOR表,这个是hudi表,一种是COW表,
MOR表会产生日志,因为会有增删改的日子对数据的,然后COW是没有日志的,COW是copy on write
的意思.是复制的数据所以不会牵扯到该删的操作.
这里因为hudi有多版本控制,所以这里就有了合并日志和基本文件的操作,合并以后产生一个新的文件片.
还要知道,这里hudi用来操作数据的方式是,用的布隆过滤,而布隆过滤是有假阳性的,什么是假阳性,
这里可以看专门的一篇写布隆过滤的文章,假阳性就是,布隆过滤说没有那肯定这个数据不存在,
如果布隆过滤说有,那么不一定有.这个就是假阳性.