flink-sql 中怎样使用hive function?

最新推荐文章于 2025-06-19 09:19:44 发布

原创最新推荐文章于 2025-06-19 09:19:44 发布 · 944 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #flink #sql

flink 专栏收录该内容

38 篇文章

订阅专栏

文章介绍了在FlinkSQL中扩展功能的方法，通过加载Hive模块，如loadmodulehivewith(hive-version=3.1.2)，使得用户能够使用Hive自带的系统函数，例如split函数，从而丰富了Flink的数据处理能力。

文章目录

前言
一、查看目前的module
二、加载hive模块
三、可以使用hive自带的函数了
总结

前言

flink-sql自带的函数，比较少，可以引入hive的函数
hive-connector内置了hive module，提供了hive自带的系统函数

一、查看目前的module

Flink SQL> show modules;
±------------+
| module name |
±------------+
| core |
±------------+
1 row in set

二、加载hive模块

加载命令：
Flink SQL> Load module hive with (‘hive-version’=‘3.1.2’);

Flink SQL>

show modules;
±------------+
| module name |
±------------+
| core |
| hive |
±------------+
2 rows in set

三、可以使用hive自带的函数了

Flink SQL> select split(‘ab_cd’,‘_’);

总结

通过加载hive module引入hive函数，从而扩展flink-sql的函数

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

*星星之火*

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Flink实战（八十七）：flink-sql使用（十四）Flink 与 hive 结合使用（六）Hive 函数

微信搜：import_bigdata，大数据领域硬核原创作者

01-23

1089

声明：本系列博客是根据SGG的视频整理而成，非常适合大家入门学习。《2021年最新版大数据面试题全面开启更新》 1 通过 HiveModule 使用 Hive 内置函数在 Flink SQL 和 Table API 中，可以通过系统内置的HiveModule来使用 Hive 内置函数，详细信息，请参考HiveModule。 val name = "myhive" val version = "2.3.4" tableEnv.loadModue(...

Flink】FlinkSQL读取hive数据并使用hive原生函数

一杯咖啡半杯糖的博客

02-21

907

Hive在整个数仓中扮演了非常重要的一环，我们可以使用FlinkSQL实现对hive数据的读取并使用hive原生的函数做操作，方便后续的操作，本次例子为Flink1.13.6版本

1 条评论您还未登录，请先登录后发表或查看评论

flink教程-flink modules详解之使用hive函数

公众号[大数据技术与应用实战]，分享大数据实战案例

08-17

1667

flink 提供了一个module的概念，使用户能扩展flink的内置对象，比如内置函数。这个功能是插件化的，用户可以方便的加载或者移除相应的module。 flink内置了CoreModule，并且提供了一个hive module，允许用户在加载了hive module之后使用hive的函数，包括内置函数、自定义hive函数等等。如果多个module里有重名的函数，则以先加载的函数为准。用户还可以自定义module，只需要实现Module接口即可。如果是在sql 客户端使用，还需要实现ModuleF

13.3、Flink Table API & SQL - Hive 之 Hive函数

主要写大数据集群一线运维和学习工作经验

08-26

770

用户自定义函数用户可以在Flink中使用他们现有的Hive用户定义函数。支持的UDF函数包括以下： UDF GenericUDF GenericUDTF UDAF GenericUDAFResolver2 通过查询计划和执行，Hive的UDF和GenericUDF被自动转换为Flink的ScalarFunction, Hive的GenericUDTF被自动转换为Flink的Tab...

flinksql使用hive内置函数

asdf1368822590的博客

07-10

466

flink版本：1.13.1 TableEnvironment.loadModule("hive",new HiveModule("2.3.5"));

Flink-1.11使用sql-client连接Hive-2.1.1

猫不夜行的博客

01-16

5904

Flink-1.11使用sql-client连接Hive 写在前面： Sql-client连接Hive是通过客户端的形式读写hive、测试相关语句的便捷方式，也是Flink搭建后测试操作Hive的第一步。前面因为版本问题一直没有进展，Flink在1.9.1版本中只面向Hive-1.2.1、Hive-2.3.4，而在不改变Hive版本的情况下，其他实现方式较为繁琐。而Flink-1.11版本中，已经...

flink sql 知其所以然（十八）：在 flink 中还能使用 hive udf？附源码

qq_34608620的博客

02-13

1901

1.序篇源码公众号后台回复1.13.2 sql hive udf获取。废话不多说，咱们先直接上本文的目录和结论，小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助：背景及应用场景介绍：博主期望你能了解到，其实很多场景下实时数仓的建设都是随着离线数仓而建设的（相同的逻辑在实时数仓中重新实现一遍），因此能够在 flink sql 中复用 hive udf 是能够大大提高人效的。 flink 扩展支持 hive 内置 udf：flink sql 提供了扩展 udf 的能力，即 modul

flink1.14.0中集成hive3.1.2

硅谷工具人

10-06

2351

不想看太多的话，直接拉到第二部分操作步骤： 1. 是解决过程：在flink1.14.0中已经移除sql-client-defaults.yml配置文件了。参考地址：https://issues.apache.org/jira/browse/FLINK-21454 于是我顺着这个issue找到了FLIP-163这个链接。 https://cwiki.apache.org/confluen......

CDH + FlinkSQL1.13.2 + hive

qq_15138049的博客

02-25

1995

CDH FlinkSQL hive

flink实战--读写Hive（ hive on flink ）

热门推荐

阿华田的博客

08-28

1万+

Flink onHive 介绍 Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能，用户可以通过 Flink 来访问 Hive 的元数据，以及读写 Hive 中的表,Hive 是大数据领域最早出现的 SQL 引擎，发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎，如 Spark SQL、Impal...

Flink SQL: LOAD Statements

weixin_48813624的博客

11-08

557

Flink SQL: LOAD Statements

Flink SQL 自定义 Source format 实现大数据流处理

BugCrusher的博客

08-14

239

在 Flink 中，可以使用 Flink SQL 进行流数据处理，并通过自定义 Source format 实现对各种数据源的接入和处理。通过自定义 Source format，我们可以适配各种类型的数据源，并利用 Flink 的强大功能进行灵活的数据处理和分析。在上述代码中，我们使用了 Flink 官方提供的 Kafka 连接器，并设置了相关的参数，比如 Kafka 的地址、消费者组和数据格式。通过以上步骤，我们可以轻松地实现对大数据流的处理和分析，充分发挥 Flink 的强大功能和灵活性。

Hudi的应用（2）

qq_43520412的博客

09-12

591

（1）元数据：.hoodie目录对应着表的元数据信息，包括表的版本管理（Timeline）、归档目录（存放过时的instant也就是版本），一个instant记录了一次提交（commit）的行为、时间戳和状态，Hudi以时间轴的形式维护了在数据集上执行的所有操作的元数据；（4）如果是 update 消息，写对应的 file group + file slice，直接 append 最新的 log file（如果碰巧是当前最小的小文件，会 merge base file，生成新的 file slice）

【Flink SQL】Flink SQL 语法篇（十）：EXPLAIN、USE、LOAD、SET、SQL Hints

Code · Cloud · Think · Repeat

02-29

3067

如果熟悉 MySQL 的同学会非常熟悉这个子句，在 MySQL 中，USE 子句通常被用于切换库，那么在 Flink SQL 体系中，它的作用也是和 MySQL 中 USE 子句的功能基本一致，用于切换 Catalog，DataBase，使用 Module。

Flink-shell

qq_45409791的博客

08-02

1227

flink-shell相关知识点

Flink 系列之三十四- Flink SQL - 重要概念：Module、状态管理、Catalog

最新发布

代码让AI扣

06-19

971

本章主要对FlinkSQL的一些重要的概念进行了讲解，这些概念对于使用FlinkSQL非常重要，可以多多复习掌握。下一章将讲保存点和检查点。

Flink on Hive构建流批一体数仓

格子衫

01-06

609

Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎，也可以通过流处理的方式来读写Hive中的表，从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例，介绍Flink集成Hive的另外一个非常重要的方面——Hive维表JOIN(Temporal Table Join)与Flink读写Hive表的方式。以下是全文，希望本文对你有所帮助。 Flink写入Hive表 Flink支持以批处理(B

通过 Flink SQL 使用 Hive 表丰富流

大数据杂货铺的博客

11-22

2551

1. 介绍流处理是通过在数据运动时对数据应用逻辑来创造商业价值。很多时候，这涉及组合数据源以丰富数据流。Flink SQL 执行此操作并将您应用于数据的任何函数的结果定向到接收器中。业务用例，例如欺诈检测、广告印象跟踪、医疗保健数据丰富、增加财务支出信息、GPS 设备数据丰富或个性化客户通信，都是使用蜂巢表来丰富数据流的很好的例子。因此，Hive 表与 Flink SQL 有两种常见的用例： Lookup（查找）表用于丰富数据流用于写入 Flink 结果的接收器对于这些用例中的任何一个，还有两种方法

【数据湖Hudi-11-Hudi集成Hive】

weixin_38136584的博客

01-13

988

数据湖Hudi-11-Hudi集成Hive

scala语言中Flink如何查询Hive

11-02

在Scala中使用Apache Flink连接Apache Hive主要是通过Flink SQL Client或者Flink提供的Hive connector来完成的。以下是一个基本步骤： 1. **设置环境**： - 首先，确保你已经在Flink环境中配置了Hive的支持。这通常需要在启动Flink集群时添加Hive的相关JAR包。 2. **创建Flink Session**： ```scala import org.apache.flink.api.common.functions.MapFunction import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment val env = StreamExecutionEnvironment.getExecutionEnvironment ``` 3. **创建HiveCatalog**： ```scala import org.apache.flink.connector.hive.HiveCatalog import org.apache.flink.table.api.bridge.java.{TableConfig, TableSchema} val hiveCatalog = new HiveCatalog("my-hive-conf", new TableConfig()) ``` 这里需要一个有效的Hive配置文件（例如`my-hive-conf`），它包含了Hive的元数据信息。 4. **注册表和创建TableSource/TableSink**： ```scala val tableSchema = ... // 根据你的Hive表定义创建TableSchema val tableName = "my_hive_table" hiveCatalog.registerTable(tableName, tableSchema) val myTableSource = hiveCatalog.createTableSource(tableName) val myTableSink = hiveCatalog.createTableSink(tableName) ``` 5. **读取/写入Hive表**：对于数据流的消费，你可以像操作其他数据源一样使用`env.addSource`： ```scala val stream = env.addSource(myTableSource) ``` 对于数据流的生产，你可以使用`stream.writeTo`将结果写回Hive： ```scala stream.map(new MapFunction<Row, Row>() { ... }).writeTo(myTableSink) ``` 6. **执行作业**： ```scala env.execute("My Flink Job with Hive") ```