Apache Hudi初探(八)(与spark的结合)--非bulk_insert模式

ApacheHudi与Spark集成的非原生写操作解析

最新推荐文章于 2025-07-17 14:33:46 发布

原创

最新推荐文章于 2025-07-17 14:33:46 发布 · 890 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #hudi

文章详细探讨了在非bulk_insert模式下，ApacheHudi与Spark结合进行数据写入的过程。涉及的内容包括schema的合并、Avro转换、HoodieRecord的创建、去重策略以及异步的Compaction和Clustering配置。在开启SchemaEvolution时，会根据现有schema和内部schema进行合并。同时，文章提到了如何处理插入时的去重，以及在写操作中的索引使用和提交流程。

背景

之前讨论的都是’hoodie.datasource.write.operation’:'bulk_insert’的前提下，在这种模式下，是没有json文件的已形成如下的文件：

/dt=1/.hoodie_partition_metadata
/dt=1/2ffe3579-6ddb-4c5f-bf03-5c1b5dfce0a0-0_0-41263-0_20230528233336713.parquet
/dt=1/30b7d5b2-12e8-415a-8ec5-18206fe601c0-0_0-22102-0_20230528231643200.parquet
/dt=1/4abc1c6d-a8aa-4c15-affc-61a35171ce69-0_4-22106-0_20230528231643200.parquet
/dt=1/513dee80-2e8c-4db8-baee-a767b9dba41c-0_2-22104-0_20230528231643200.parquet
/dt=1/57076f86-0a62-4f52-8b50-31a5f769b26a-0_1-22103-0_20230528231643200.parquet
/dt=1/84553727-be9d-4273-bad9-0a38d9240815-0_0-59818-0_20230528233513387.parquet
/dt=1/fecd6a84-9a74-40b1-bfc1-13612a67a785-0_0-26640-0_20230528231723951.parquet

因为是"bulk insert"操作，所以没有去重的需要，所以直接采用spark原生的方式，
以下我们讨论非spark原生的方式，

闲说杂谈

继续Apache Hudi初探(二)(与spark的结合)
剩下的代码：

 val reconcileSchema = parameters(DataSourceWriteOptions.RECONCILE_SCHEMA.key()).toBoolean
 val (writeResult, writeClient: SparkRDDWriteClient[HoodieRecordPayload[Nothing]]) =
 ...
  case _ => { // any other operation
   // register classes & schemas
   val (structName, nameSpace) = AvroConversionUtils.getAvroRecordNameAndNamespace(tblName)
   sparkContext.getConf.registerKryoClasses(
     Array(classOf[org.apache.avro.generic.GenericData],
       classOf[org.apache.avro.Schema]))

   // TODO(HUDI-4472) revisit and simplify schema handling
   val sourceSchema = AvroConversionUtils.convertSt