hive中的自定义函数 udf 和udaf和udtf的区别以及用法

最新推荐文章于 2025-10-04 15:15:00 发布

原创

最新推荐文章于 2025-10-04 15:15:00 发布 · 4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hive中的自定义函数 udf 和udaf和udtf的区别以及用法

本文介绍了Hive中的三种自定义函数：UDF、UDAF和UDTF。UDF（User Defined Function）特点是一对一转换，如md5和split函数；UDAF（User Defined Aggregate Function）用于聚合操作，如sum和count，通过init、iterate、terminate等方法实现；UDTF（User Defined Table Generating Function）能将一行数据转化为多行，如explode函数。详细讲解了这三类函数的实现方法、使用步骤以及示例。

hive中的自定义函数 udf 和udaf和udtf的区别以及用法

udf:
特点：input:output=1:1
实例函数:md5,split,ltrim
应用场景：1:1的情况，比如md5…
实现方法：简单udf实现
extends UDF
方法名 evaluate

举例：
public class Lower extends UDF {
public Text evaluate(Text s) {
if (s == null) {
return null;
}
return new Text(s.toString().toLowerCase());

1.将项目打包打包后放到linux系统hive的默认目录【不需要上传到hdfs】【默认目录：/opt/molute/jars/ （没有的话自己创建目录）
2.将jar包添加到hive的classpath 【进入hive命令】【此步骤也相当于在hive上注册jar包】
hive> add jar /opt/molute/jars/udf.jar;
若执行成功显示如下：
hive> add jar /opt/module/jars/udf.jar;
Added [/opt/module/jars/udf.jar] to class path
Added resources: [/opt/module/jars/udf.jar]
3.创建临时函数与开发好的 java class 关联
create temporary function toLowerCase as ‘cn.hive.Lower’; [【’’ 里是java类的路径 toLoweCase 是起的函数名 temporary是临时的】
4.测试：show functi