HIVE UDF(user-defined function)两种方式
第一种
继承UDF(org.apache.hadoop.hive.ql.exec.UDF),重写evaluate方法,可以重载(ps:重载与返回值类型无关,不明白,自行百度),evalute方法接收来自hive的一行记录(可以包含多个参数),进行处理,并返回结果(可以返回void)。
第二种
继承抽象类Generic(org.apache.hadoop.hive.ql.udf.generic.GenericUDF),必须重写initialize,evalute和getDisplayString方法。
initialize方法,方法会被每条记录调用(可以包含多个参数,传入的参数是数组),返回值只有一个(通过处理,返回值只有一个),且是ObjectInspector类,这个方法是为了确定参数的返回类型,如果传入参数不合法,抛出异常UDFArgumentException,一般需要自行抛出,ReturnObjectInspectorResolver通过获取非null值变量的类型并使用这个数据类型确定返回值类型
evaluate,输入的是一个DeferredObject数组(deffered,推迟),ReturnObjectInspectorResolver通过从这个数组对象中获取值
getDisplayString:用于在调用这个UDF时,打印出描述信息,运行出错的时候会打印,运行正确的时候不会打印。
先调用initialize方法,后调用evaluate方法,getDisplayString在运行出错时被调用
书中案例,自定义nvl(空值转换)方法,代码如下:
package myself;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDFUtils.ReturnObjectInspectorResolver;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
@Description(name="nvl",
value="_FUNC_(value,default) - returns default value if value is null",
extended="Example:\n"+">select _FUNC_(null,'abc') from src limit 1;\n abc"
)
public class MyUdf extends GenericUDF{
private ReturnObjectInspectorResolver returnOIResolver;//返回类检查分解器
private ObjectInspector[] argumentOIs;//类检查器
//获取值
@Override
public Object evaluate(DeferredObject[] args) throws HiveException {
// TODO Auto-generated method stub
Object resVal = returnOIResolver.convertIfNecessary(args[0].get(), argumentOIs[0]);
if(resVal==null) {
resVal=returnOIResolver.convertIfNecessary(args[1].get(), argumentOIs[1]);
}
return resVal;
}
//用于hadoop task内部,当调用这个UDF时,显示调试信息
@Override
public String getDisplayString(String[] args) {
// TODO Auto-generated method stub
return "if "+args[0]+" is null return "+ args[1];
}
//被输入的每一个参数调用,传入到一个ObjectInspector对象中
@Override
public ObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {
// TODO Auto-generated method stub
//?这有问题 cusudf.jar中的argumentOIs没赋初值 cusudf01.jar赋了初值
argumentOIs=args;
// returnOIResolver.update(argumentOIs[0]);
if(args.length != 2) {
throw new UDFArgumentException("The operator 'NVL' accept 2 arguments");
}
returnOIResolver =
new ReturnObjectInspectorResolver(true);
if(!(returnOIResolver.update(args[0])&&returnOIResolver.update(args[1]))) {
throw new UDFArgumentException("The 1st and 2nd args of function NLV should "
+ "have the same type, but they are different :\""+args[0].getTypeName()
+"\" and \""+args[1].getTypeName()+"\"");
}
return returnOIResolver.get();
}
}