Apache Hudi初探(七)(与spark的结合)

原创

已于 2023-05-22 19:31:25 修改 · 718 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #hive #hudi

于 2023-05-21 23:54:54 首次发布

文章探讨了Hudi如何基于SparkDataSourceV1与Spark集成，特别是当hoodie.datasource.hive_sync.enable开启时，如何进行Hive元数据的同步。同步过程涉及HiveSyncTool，对MOR表（包括RT表和RO表）的操作，并介绍了配置选项如hoodie.datasource.hive_sync.skip_ro_suffix如何影响RO表的创建。

背景

目前hudi的与spark的集合还是基于spark datasource V1来的，这一点可以查看hudi的source实现就可以知道:

class DefaultSource extends RelationProvider
  with SchemaRelationProvider
  with CreatableRelationProvider
  with DataSourceRegister
  with StreamSinkProvider
  with StreamSourceProvider
  with SparkAdapterSupport
  with Serializable {

闲说杂谈

接着Apache Hudi初探(二)(与spark的结合)中剩下的：

    val syncHiveSuccess = metaSync(sqlContext.sparkSession, writeConfig, basePath, df.schema)

这里主要是同步到数据到hive的元数据中，如果hoodie.datasource.hive_sync.enable开启（默认是false，不开启）
则会设置hoodie.datasource.meta.sync.enable为true（默认是false，不开启），于此同时会把HiveSyncTool类加入到syncClientToolClassSet集合中，便于后续调用，当然如果设置了hoodie.meta.sync.client.tool.class，也会加入到该集合中。
如果hoodie.datasource.meta.sync.enable为true ,