背景
目前hudi的与spark的集合还是基于spark datasource V1来的,这一点可以查看hudi的source实现就可以知道:
class DefaultSource extends RelationProvider
with SchemaRelationProvider
with CreatableRelationProvider
with DataSourceRegister
with StreamSinkProvider
with StreamSourceProvider
with SparkAdapterSupport
with Serializable {
闲说杂谈
接着Apache Hudi初探(二)(与spark的结合)中剩下的:
val syncHiveSuccess = metaSync(sqlContext.sparkSession, writeConfig, basePath, df.schema)
这里主要是同步到数据到hive的元数据中,如果hoodie.datasource.hive_sync.enable开启(默认是false,不开启)
则会设置hoodie.datasource.meta.sync.enable为true(默认是false,不开启),于此同时会把HiveSyncTool类加入到syncClientToolClassSet集合中,便于后续调用,当然如果设置了hoodie.meta.sync.client.tool.class,也会加入到该集合中。
如果hoodie.datasource.meta.sync.enable为true ,

文章探讨了Hudi如何基于SparkDataSourceV1与Spark集成,特别是当hoodie.datasource.hive_sync.enable开启时,如何进行Hive元数据的同步。同步过程涉及HiveSyncTool,对MOR表(包括RT表和RO表)的操作,并介绍了配置选项如hoodie.datasource.hive_sync.skip_ro_suffix如何影响RO表的创建。
最低0.47元/天 解锁文章
1156

被折叠的 条评论
为什么被折叠?



