Hive中实现自定义函数UDF详细过程

最新推荐文章于 2024-05-11 00:36:31 发布

转载最新推荐文章于 2024-05-11 00:36:31 发布 · 1.9k 阅读

文章标签：

#exception #function #string #class #java #jar

HADOOP和HIVE 专栏收录该内容

11 篇文章

订阅专栏

本文介绍如何使用Java为Hive开发自定义函数(UDF)以增强其功能，特别是针对数组类型的数据处理，例如判断数组中是否包含特定元素。

Hive的UDF，其实很类似Mysql之类的自定义函数

不过它需要用java来编写，而不是用传统的SQL来完成

实现一个UDF的步骤如下：

实现一个Java Class，继承自UDF
打成jar包，并加入到Hive的ClassPath中
生成自定义函数，执行select
删除刚才创建的临时函数

下面这个UDF，是我给hive的array增加的一个函数

用来判断array中是否包含某个值，hive的标准函数中并没有此功能函数

package com.sohu.hadoop.hive.udf;
import java.util.*;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.BooleanWritable;
import org.apache.hadoop.io.Text;
 
public final class ArrayContains extends UDF {
 
  public BooleanWritable evaluate(ArrayList<String> arr,Text ele)
    {
        BooleanWritable rtn = new BooleanWritable(false);
        if (arr == null || arr.size() < 1)
        {
            return rtn;
        }
        try {
            String cstr = ele.toString();   
            for (String str : arr)
            {
                if (str.equals(cstr))
                {
                    rtn = new BooleanWritable(true);
                    break;
                }
            }
 
        } catch (Exception e) {
            e.printStackTrace();
        }
 
        return rtn;
    }
}

然后执行编译打包：

javac -classpath /opt/hadoop_client/hadoop/hadoop-0.20.2+228-core.jar:/opt/hadoop_client/hive/lib/hive-exec-0.5.0.jar src/com/sohu/hadoop/hive/udf/ArrayContains.java -d build
jar -cvf hadooop-mc-udf.jar -C build .

最后执行Hive QL查询：

hive -e "add jar /opt/ysz/udf/hadooop-mc-udf.jar;drop temporary function array_contains;create temporary function array_contains as 'com.sohu.hadoop.hive.udf.ArrayContains';select suv,channelid from pvlog_pre where array_contains(channelid,'2')"