Apache Hudi初探(九)(与spark的结合)--非bulk_insert模式

原创

已于 2023-07-20 21:48:53 修改 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#apache #spark #大数据 #hudi

于 2023-06-10 06:17:02 首次发布

文章详细探讨了在非bulk_insert模式下，ApacheHudi如何执行upsert操作，涉及HoodieSparkMergeOnReadTable的初始化、数据去重、索引查找、数据写入等步骤，以及SparkRDDWriteClient的角色。过程中提到了HoodieRecordPayload的预合并、HoodieSimpleIndex的标记位置、RDD的持久化和分区处理等关键环节。

背景

之前讨论的都是’hoodie.datasource.write.operation’:'bulk_insert’的前提下，在这种模式下，是没有json文件的已形成如下的文件：

/dt=1/.hoodie_partition_metadata
/dt=1/2ffe3579-6ddb-4c5f-bf03-5c1b5dfce0a0-0_0-41263-0_20230528233336713.parquet
/dt=1/30b7d5b2-12e8-415a-8ec5-18206fe601c0-0_0-22102-0_20230528231643200.parquet
/dt=1/4abc1c6d-a8aa-4c15-affc-61a35171ce69-0_4-22106-0_20230528231643200.parquet
/dt=1/513dee80-2e8c-4db8-baee-a767b9dba41c-0_2-22104-0_20230528231643200.parquet
/dt=1/57076f86-0a62-4f52-8b50-31a5f769b26a-0_1-22103-0_20230528231643200.parquet
/dt=1/84553727-be9d-4273-bad9-0a38d9240815-0_0-59818-0_20230528233513387.parquet
/dt=1/fecd6a84-9a74-40b1-bfc1-13612a67a785-0_0-26640-0_20230528231723951.parquet

因为是bulk insert操作，所以没有去重的需要，所以直接采用spark原生的方式，
以下我们讨论非spark原生的方式，

闲说杂谈

继续Apache Hudi初探(八)(与spark的结合)–非bulk_insert模式
剩下的代码：

   val writeResult = DataSourceUtils.doWriteOperation(client, hoodieRecords, instantTime, operation)
   val (writeSuccessful, compactionInstant, clusteringInstant) =
        commitAndPerformPostOperations(sqlContext.sparkSession, df.schema,
          writeResult, parameters, writeClient, tableConfig, jsc,
          TableInstantInfo(basePath, instantTime, commitActionType, operation))

doWriteOperation 最终调用的是SparkRDDWriteClient对应的方法，如bulkInsert/insert/upsert/insertOverwrite，这里我们以upsert为例：
```
 public JavaRDD<WriteStatus> upsert(JavaRDD<HoodieRecord<T>> records, String instantTime) {
  HoodieTable<T, HoodieData<HoodieRecord<T>>, Hoodie
```