Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12为例

最新推荐文章于 2025-06-29 09:17:48 发布

原创

最新推荐文章于 2025-06-29 09:17:48 发布 · 825 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了Flink如何使用Hive Catalog来管理元数据，强调了Hive Catalog的持久化优势，避免每次操作都需要重新注册。内容包括Hive Catalog的使用方法，如何创建Hive兼容表和普通表，并提供了通过Flink SQL创建和查看表元数据的示例。

什么是Hive Catalog
我们知道，Hive使用Hive Metastore(HMS)存储元数据信息，使用关系型数据库来持久化存储这些信息。所以，Flink集成Hive需要打通Hive的metastore，去管理Flink的元数据，这就是Hive Catalog的功能。

Hive Catalog的主要作用是使用Hive MetaStore去管理Flink的元数据。Hive Catalog可以将元数据进行持久化，这样后续的操作就可以反复使用这些表的元数据，而不用每次使用时都要重新注册。如果不去持久化catalog，那么在每个session中取处理数据，都要去重复地创建元数据对象，这样是非常耗时的。

如何使用Hive Catalog
HiveCatalog是开箱即用的，所以，一旦配置好Flink与Hive集成，就可以使用HiveCatalog。比如，我们通过FlinkSQL 的DDL语句创建一张kafka的数据源表，立刻就能查看该表的元数据信息。

HiveCatalog可以处理两种类型的表：一种是Hive兼容的表，另一种是普通表(generic table)。其中Hive兼容表是以兼容Hive的方式来存储的，所以，对于Hive兼容表而言，我们既可以使用Flink去操作该表，又可以使用Hive去操作该表。

普通表是对Flink而言的，当使用HiveCatalog创建一张普通表，仅仅是使用Hive MetaStore将其元数据进行了持久化，所以可以通过Hive查看这些表的元数据信息(通过DESCRIBE FORMATTED命令)，但是不能通过Hive去处理这些表，因为语法不兼容。

对于是否是普通表，Flink使用is_generic属性进行标识。默认情况下，创建的表是普通表，即is_generic=true，如果要创建Hive兼容表，需要在建表属性中指定is_generic=false。

尖叫提示：

由于依赖Hive Metastore，所以必须开启Hive MetaStore服务

代码中使用Hive Catalog
EnvironmentSettings settings = EnvironmentSettin