
hudi
文章平均质量分 95
王亭_666
这个作者很懒,什么都没留下…
展开
-
Hudi之数据读写探究
操作类型I/O开销CPU开销写入吞吐量磁盘空间利用内存消耗并发处理能力网络开销INSERT-写入最低几乎无需计算吞吐量较高低低一般低BULK_INSERT-批量写需要更多I/O有一些计算需求吞吐量最高较低较低高低UPSERT-更新或写入最高需要较高的计算资源吞吐量最低高较高低高。原创 2024-05-29 16:40:09 · 2051 阅读 · 0 评论 -
Hudi之TimeLine(时间轴)原理概念
在Apache Hudi中,TimeLine是指,用于跟踪数据湖Hudi中数据的变化历史。TimeLine是Hudi的核心概念之一,用于管理和维护数据湖Hudi中各个数据集的变化历史。具体来说,TimeLine由一系列时间戳(timestamp)和相关的操作事件(如写入、更新、删除)组成,这些事件按时间顺序排列。每个数据集都有自己的TimeLine,用于记录该数据集的变化历史。 通过TimeLine,用户可以追溯数据集的变化历史,了解数据是如何随着时间变化的。原创 2024-05-20 18:01:22 · 1669 阅读 · 0 评论