Flink SQL (五) 连接到外部系统Hive

最新推荐文章于 2025-04-15 18:16:02 发布

原创

最新推荐文章于 2025-04-15 18:16:02 发布

· 2.4k 阅读

8 ·

版权

文章标签：

#hive #flink #sql

本文介绍了如何在Apache Flink中利用HiveCatalog与Hive集成，实现跨会话元数据持久化和实时/批处理能力提升，使得实时数仓成为可能。关键步骤包括设置Hive依赖、连接Hive、配置SQL方言以及读写Hive表的操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive

Apache Hive 作为一个基于 Hadoop 的数据仓库基础框架，可以说已经成为了进行海量数据分析的核心组件。Hive 支持类 SQL 的查询语言，可以用来方便对数据进行处理和统计分析，而且基于 HDFS 的数据存储有非常好的可扩展性，是存储分析超大量数据集的唯一选择。Hive 的主要缺点在于查询的延迟很高，几乎成了离线分析的代言人。而 Flink 的特点就是实时性强，所以 Flink SQL 与 Hive 的结合势在必行。

Flink 与 Hive 的集成比较特别。Flink 提供了“Hive 目录”（HiveCatalog）功能，允许使用 Hive 的“元存储”（Metastore）来管理 Flink 的元数据。这带来的好处体现在两个方面：

（1）Metastore 可以作为一个持久化的目录，因此使用 HiveCatalog 可以跨会话存储 Flink 特定的元数据。这样一来，我们在 HiveCatalog 中执行执行创建 Kafka 表或者 ElasticSearch 表，就可以把它们的元数据持久化存储在 Hive 的 Metastore 中；对于不同的作业会话就不需要重复创建了，直接在 SQL 查询中重用就可以。

（2）使用 HiveCatalog，Flink 可以作为读写 Hive 表的替代分析引擎。这样一来，在 Hive 中进行批处理会更加高效；与此同时，也有了连续在 Hive 中读写数据、进行流处理的能力，这也使得“实时数仓”（real-time data warehouse）成为了可能。

HiveCatalog 被设计为“开箱即用”，与现有的 Hive 配置完全兼容，我们不需要做任何的修改与调整就可以直接使用。注意只有 Blink 的计划器（planner）提供了 Hive 集成的支持，所以需要在使用 Flink SQL时选择Blink planner。下面我们就来看以下与Hive 集成的具体步骤。

引入依赖

Hive 各版本特性变化比较大，所以使用时需要注意版本的兼容性。目前 Flink 支持的 Hive 版本包括：

Hive 1.x：1.0.0~1.2.2；
Hive 2.x：2.0.0_{2.2.0，2.3.0}2.3.6；
Hive 3.x：3.0.0~3.1.2；

目前 Flink 与 Hive 的集成程度在持续加强，支持的版本信息也会不停变化和调整，大家可以随着关注官网的更新信息。

由于 Hive 是基于 Hadoop 的组件，因此我们首先需要提供 Hadoop 的相关支持，在环境变量中设置 HADOOP_CLASSPATH：

export HADOOP_CLASSPATH=`hadoop classpath`

在 Flink 程序中可以引入以下依赖：

<!-- Flink 的 Hive 连接器-->
<dependency>
 <groupId>org.apache.flink</groupId>
 <artifactId>flink-connector-hive_${scala.binary.version}</artifactId>
 <version>${flink.version}</version>
</dependency>

最低0.47元/天解锁文章