Hive上使用UDF遇到的诡异的事
Hive上使用UDF遇到的诡异的事
这里记录一下自己用UDF遇到的问题,最后虽然解决了也知道是什么原因导致的,但是没有从代码或Hive层面去理解,全是靠自己意会出来的。
背景
一个业务需求,需要在hive上操作,逻辑比较复杂,写了两个udf,用的是一项目,对应的目录如下:
└─src
├─main
└─java
└─com
└─quick
└─udf
└─fun1
└─fun2
大致简化了一下,这样的话两个udf的class就是
fun1 ---> com.quick.udf.fun1
fun1 ---> com.quick.udf.fun2
打包后的jar为fun_v1.0.jar
最终的用法如下
DELETE jar hdfs:///tmp/udf/fun_v1.0.jar;
DROP TEMPORARY FUNCTION fun1;
ADD jar hdfs:///tmp/udf/fun_v1.0.jar;
CREATE TEMPORARY FUNCTION fun1 'com.quick.udf.fun1';
select fun1(1,2,3) from tablea;
DELETE jar hdfs:///tmp/udf/fun_v1.0.jar;
DROP TEMPORARY FUNCTION fun2;
ADD jar hdfs:///tmp/udf/fun_v1.0.jar;
CREATE TEMPORARY FUNCTION fun2 'com.quick.udf.fun2';
select fun2(1,2,3) from table b
select fun1(a,b,c) from tablec
我们公司有自己的Hive平台, udf函数申请的时候一定要一个函数名对应一个jar包和class路径,所以上面两个udf就申请了两次,使用的时候就要add两次。
这个上线后没有任何问题,最近有了新的需求,要对fun1进行调整,改动还比较大,最后的jar包版本为v2.0,用法如下
DELETE jar hdfs:///tmp/udf/fun_v2.0.jar;
DROP TEMPORARY FUNCTION fun1;
ADD jar hdfs:///tmp/udf/fun_v2.0.jar;
CREATE TEMPORARY FUNCTION fun1

在Hive中使用UDF时遇到序列化错误,问题由两个相同项目的不同版本jar包引起。通过调整UDF的类路径,确保每个UDF对应单独的jar包,并使用不同的包名避免冲突,最终解决了问题。尽管找到了临时解决方案,但对Hive和Kryo序列化的深入理解仍有待加强。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



