Hive自定义UDF和聚合函数UDAF

本文介绍了Hive中的用户定义函数(UDF)和用户定义聚合函数(UDAF)的概念及其应用。通过示例详细讲解了如何自定义UDF和UDAF,并将其应用于Hive查询中。

转自:http://computerdragon.blog.51cto.com/6235984/1288567

Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为metastore的数据库中。

       可以在hive的外壳环境中直接使用dfs访问hadoop的文件系统命令。

       Hive可以允许用户编写自己定义的函数UDF,来在查询中使用。Hive中有3种UDF:

       UDF:操作单个数据行,产生单个数据行;

       UDAF:操作多个数据行,产生一个数据行。

       UDTF:操作一个数据行,产生多个数据行一个表作为输出。

      用户构建的UDF使用过程如下:

      第一步:继承UDF或者UDAF或者UDTF,实现特定的方法。

      第二步:将写好的类打包为jar。如hivefirst.jar.

      第三步:进入到Hive外壳环境中,利用add jar /home/hadoop/hivefirst.jar.注册该jar文件

      第四步:为该类起一个别名,create temporary function mylength as 'com.whut.StringLength';这里注意UDF只是为这个Hive会话临时定义的。

      第五步:在select中使用mylength();

自定义UDF

 

[java] view plain copy

  1. package whut;  
  2. import org.apache.commons.lang.StringUtils;  
  3. import org.apache.hadoop.hive.ql.exec.UDF;  
  4. import org.apache.hadoop.io.Text;  
  5. //UDF是作用于单个数据行,产生一个数据行  
  6. //用户必须要继承UDF,且必须至少实现一个evalute方法,该方法并不在UDF中  
  7. //但是Hive会检查用户的UDF是否拥有一个evalute方法  
  8. public class Strip extends UDF{  
  9.     private Text result=new Text();  
  10.     //自定义方法  
  11.     public Text evaluate(Text str)  
  12.     {  
  13.       if(str==null)  
  14.         return null;  
  15.         result.set(StringUtils.strip(str.toString()));  
  16.         return result;  
  17.     }  
  18.     public Text evaluate(Text str,String stripChars)  
  19.     {  
  20.         if(str==null)  
  21.             return null;  
  22.         result.set(StringUtils.strip(str.toString(),stripChars));  
  23.         return result;  
  24.     }  
  25. }  

注意事项:

   1,一个用户UDF必须继承org.apache.hadoop.hive.ql.exec.UDF;

   2,一个UDF必须要包含有evaluate()方法,但是该方法并不存在于UDF中。evaluate的参数个数以及类型都是用户自己定义的。在使用的时候,Hive会调用UDF的evaluate()方法。

自定义UDAF

该UDAF主要是找到最大值

[java] view plain copy

  1. package whut;  
  2. import org.apache.hadoop.hive.ql.exec.UDAF;  
  3. import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;  
  4. import org.apache.hadoop.io.IntWritable;  
  5. //UDAF是输入多个数据行,产生一个数据行  
  6. //用户自定义的UDAF必须是继承了UDAF,且内部包含多个实现了exec的静态类  
  7. public class MaxiNumber extends UDAF{  
  8.     public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator{  
  9.         //最终结果  
  10.         private IntWritable result;  
  11.         //负责初始化计算函数并设置它的内部状态,result是存放最终结果的  
  12.         @Override  
  13.         public void init() {  
  14.             result=null;  
  15.         }  
  16.         //每次对一个新值进行聚集计算都会调用iterate方法  
  17.         public boolean iterate(IntWritable value)  
  18.         {  
  19.             if(value==null)  
  20.                 return false;  
  21.             if(result==null)  
  22.               result=new IntWritable(value.get());  
  23.             else  
  24.               result.set(Math.max(result.get(), value.get()));  
  25.             return true;  
  26.         }  
  27.                                                                                                                                     
  28.         //Hive需要部分聚集结果的时候会调用该方法  
  29.         //会返回一个封装了聚集计算当前状态的对象  
  30.         public IntWritable terminatePartial()  
  31.         {  
  32.             return result;  
  33.         }  
  34.         //合并两个部分聚集值会调用这个方法  
  35.         public boolean merge(IntWritable other)  
  36.         {  
  37.             return iterate(other);  
  38.         }  
  39.         //Hive需要最终聚集结果时候会调用该方法  
  40.         public IntWritable terminate()  
  41.         {  
  42.             return result;  
  43.         }  
  44.     }  
  45. }  

注意事项:

    1,用户的UDAF必须继承了org.apache.hadoop.hive.ql.exec.UDAF;

    2,用户的UDAF必须包含至少一个实现了org.apache.hadoop.hive.ql.exec的静态类,诸如常见的实现了 UDAFEvaluator。

    3,一个计算函数必须实现的5个方法的具体含义如下:

    init():主要是负责初始化计算函数并且重设其内部状态,一般就是重设其内部字段。一般在静态类中定义一个内部字段来存放最终的结果。

   iterate():每一次对一个新值进行聚集计算时候都会调用该方法,计算函数会根据聚集计算结果更新内部状态。当输入值合法或者正确计算了,则就返回true。

   terminatePartial():Hive需要部分聚集结果的时候会调用该方法,必须要返回一个封装了聚集计算当前状态的对象。

   merge():Hive进行合并一个部分聚集和另一个部分聚集的时候会调用该方法。

   terminate():Hive最终聚集结果的时候就会调用该方法。计算函数需要把状态作为一个值返回给用户。

  4,部分聚集结果的数据类型和最终结果的数据类型可以不同。

转载于:https://my.oschina.net/newchaos/blog/1596663

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值