大数据学习之Hive02(自定义函数)

virtual.machine

于 2021-10-20 19:03:41 发布

阅读量310

点赞数

文章标签： hive big data hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_54070501/article/details/120872859

版权

本文详细介绍了Hive中的UDF（用户自定义函数）、UDAF（用户自定义聚合函数）和UDTF（用户自定义表函数），包括它们的产生背景、解决的问题和实现步骤。UDF用于一对一的转换，UDAF处理多对一的聚合操作，而UDTF则解决一行输入多行输出的需求。通过自定义Java类并实现相应接口，可以扩展Hive的功能，满足复杂业务需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.UDF

1.1产生背景和意义

因为系统的内置函数无法满足所有的业务需求,所以需要我们自己编写函数去实现,应用场景广泛,解决了函数的扩展问题,丰富了可定制化的业务需求

1.2要求-要解决的问题

in:out=1:1 输入一条记录,同时产生一条结果,属于最常见的自定义函数

1.3实现步骤

自定义一个java类继承UDF类

约定俗成的重写evaluate方法

打包并上传到hive环境下

创建模板函数,在后面可以使用该函数名称进行调用

二.UDAF

2.1要求-要解决的问题

in:out=N:1 输入多条记录,同时产生一条结果,即列转行

2.2实现步骤

自定义一个java类继承UDAF类

内部定义一个静态类,实现UDAFEvaluator接口

实现init,iterate,terminatePartial,merge,terminate方法

打包并上传到hive环境下

创建模板函数,在后面可以使用该函数名称进行调用

三.UDTF

3.1要求-要解决的问题

解决一行输入多行输出的问题,即1:N,,一般由UDF+lateral view explode替代

lateral view explode实现行转列(一行输入多行输出)

UDF实现业务需求

3.2UDTF之实现

3.2.1继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF类
                3.2.2实现initialize, process, close三个方法
                3.2.3UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(返回个数,类型)
                3.2.4初始化完成后,会调用process方法,真正的处理过程在process函数中
在process中,每一次forward()调用产生一行；
如果产生多列可以将多个列的值放在一个数组中,然后将该数组传入到forward()函数
                3.2.5最后close()方法调用,对需要清理的方法进行清理

virtual.machine

博客等级

码龄4年

22
原创

15
点赞

196
收藏

302
粉丝

关注

私信

热门文章

分类专栏

最新评论

浅谈MySQL和Oracle的区别
是个傻狗了: 你自己读读你都写了些什么捷豹东西
浅谈MySQL和Oracle的区别
qq_41687700: 真的翻翻书再来，别误人子弟，现在的这些博客，看的吐血
浅谈MySQL和Oracle的区别
Oliver486: mysql没有类似oracle的构造多版本数据的机制，只支持read commited的隔离级别，一个session读取数据时，其他session不能更改数据，但可以在表最后插入数据；session更新数据时，要加上排它锁，其他session无法访问数据。这点不敢苟同啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。