Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12

最新推荐文章于 2024-01-12 09:34:10 发布

原创

最新推荐文章于 2024-01-12 09:34:10 发布 · 1.4k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#flink #hive

本文介绍了Flink集成Hive中的Hive Catalog和Hive Dialect概念。Hive Catalog用于管理Flink元数据，通过Hive MetaStore持久化，简化数据操作。Hive Dialect则允许使用HiveQL语法进行DDL和DML操作。内容包括Hive Catalog的使用，如创建Hive兼容表和普通表，并在Flink SQL CLI中配置和操作。此外，还探讨了Hive Dialect的配置与使用限制。

在上一篇分享Flink集成Hive之快速入门–以Flink1.12为例中，介绍了Flink集成Hive的进本步骤。本文分享，将继续介绍Flink集成Hive的另外两个概念：Hive Catalog与Hive Dialect。本文包括以下内容，希望对你有所帮助。

什么是Hive Catalog
如何使用Hive Catalog
什么是Hive Dialect
如何使用Hive Dialect

公众号『大数据技术与数仓』，回复『资料』领取大数据资料包

什么是Hive Catalog

我们知道，Hive使用Hive Metastore(HMS)存储元数据信息，使用关系型数据库来持久化存储这些信息。所以，Flink集成Hive需要打通Hive的metastore，去管理Flink的元数据，这就是Hive Catalog的功能。

Hive Catalog的主要作用是使用Hive MetaStore去管理Flink的元数据。Hive Catalog可以将元数据进行持久化，这样后续的操作就可以反复使用这些表的元数据，而不用每次使用时都要重新注册。如果不去持久化catalog，那么在每个session中取处理数据，都要去重复地创建元数据对象，这样是非常耗时的。

如何使用Hive Catalog

HiveCatalog是开箱即用的，所以，一旦配置好Flink与Hive集成，就可以使用HiveCatalog。比如，我们通过FlinkSQL 的DDL语句创建一张kafka的数据源表，立刻就能查看该表的元数据信息。

HiveCatalog可以处理两种类型的表：一种是Hive兼容的表，另一种是普通表(generic table)。其中Hive兼容表是以兼容Hive的方式来存储的，所以，对于Hive兼容表而言，我们既可以使用Flink去操作该表，又可以使用Hive去操作该表。

普通表是对Flink而言的，当使用HiveCatalog创建一张普通表，仅仅是使用Hive MetaStore将其元数据进行了持久化，所以可以通过Hive查看这些表的元数据信息(通过DESCRIBE FORMATTED命令)，但是不能通过Hive去处理这些表，因为语法不兼容。

对于是否是普通表，Flink使用is_generic属性进行标识。默认情况下，创建的表是普通表，即is_generic=true，如果要创建Hive兼容表，需要在建表属性中指定is_generic=false。

尖叫提示：

由于依赖Hive Metastore，所以必须开启Hive MetaStore服务

代码中使用Hive Catalog

   EnvironmentSettings settings = EnvironmentSettings.newInstance().useBlinkPlanner().build();
        TableEnvironment tableEnv = TableEnvironment.create(settings);

        String name            = "myhive";
        String defaultDatabase = "default";
        String hiveConfDir = "/opt/modules/apache-hive-2.3.4-bin/conf";

        HiveCatalog hive = new HiveCatalog(name, defaultDatabase, hiveConfDir);
        tableEnv.registerCatalog("myhive", hive);
        // 使用注册的catalog
        tableEnv.useCatalog("myhive");

Flink SQLCli中使用Hive Catalog

在FlinkSQL Cli中使用Hive Catalog很简单，只需要配置一下sql-cli-defaults.yaml文件即可。配置内容如下：

catalogs:
   - name: myhive
     type: hive
     default-database: default
     hive-conf-dir: /opt/modules/apache-hive-2.3.4-bin/conf

在FlinkSQL Cli中创建一张kafka表，该表默认为普通表，即is_generic=true

CREATE TABLE user_behavior ( 
    `user_id` BIGINT, -- 用户id
    `item_id` BIGINT, -- 商品id
    `cat_id` BIGINT, -- 品类id
    `action` STRING, -- 用户行为
    `province` INT, -- 用户所在的省份
    `ts` BIGINT, -- 用户行为发生的时间戳
    `proctime` AS PROCTIME(), -- 通过计算列产生一个处理时间列
    `eventTime` AS TO_TIMESTAMP