hudi系列-upsert写过程

矛始

已于 2023-06-07 15:53:45 修改

阅读量1.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： hudi系列文章标签：大数据数据湖 hudi mor 写

于 2023-04-23 18:11:55 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/czmacd/article/details/130327391

hudi系列专栏收录该内容

22 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Hudi的upsert写入过程，尤其是在使用Flink状态索引时的复杂性。流程包括桶分配和数据写入。数据首先根据主键进行shuffle，然后分配到特定的bucket assigner中。在MOR表中，无论是append还是upsert，都会经历桶分配，但upsert涉及删除旧分区记录并在新分区分配新位置。文章强调了合理设置并行度和Flink状态的重要性，并指出写数据时会触发缓存数据的刷盘操作，以及Write Coordinator的角色。

环境

hudi upsert写过程最为复杂，流程上有一个桶分配的环节，当以flink state为索引时，流程变得更长，所以写入性能较差。

hudi 0.13.0
mor表+insert/upsert 或 cow表+upsert
flink状态索引

核心类为BucketAssignFunction和StreamWriteFunction

由于存在着语义上的迷惑，从flink 0.13.1开始mor insert将不再走upsert写过程，而是与cow insert合并，至此，insert统一为append模式，写入只生成parquet文件

整体流程

 | pk1,pk4 | ===\     /=== | bucket assigner1 | ===\     /=== | write task1(pk1,pk2) |
              shuffle(by PK)                    shuffle(by bucket ID)
 | pk2,pk3 | ===/     \=== | bucket assigner2 | ===/     \=== | write task2(pk3,pk4) |