(转)HIVE中的自定义函数

本文介绍如何在Hive中添加并测试自定义函数,包括基础函数的集成与个性化函数的创建,旨在简化操作流程并提高效率。

文章来源: http://blog.youkuaiyun.com/wh62592855/article/details/6448722

 

hive默认的函数并不是太完整,以后我们使用的使用肯定需要自己补充一些。
下面这个例子是个简单的测试,关于自定义函数的。

函数代码
package com.example.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public final class Lower extends UDF {
  public Text evaluate(final Text s) {
    if (s == null) { return null; }
    return new Text(s.toString().toLowerCase());
  }
}

打包
javac -d Lower Lower.java
jar -cvf Lower.jar -C Lower/ .

在hive中添加包
hive> add jar /home/hjl/sunwg/Lower.jar;
Added /home/hjl/sunwg/Lower.jar to class path

在hive中创建函数
hive> create temporary function my_lower as ‘com.example.hive.udf.Lower’;
OK
Time taken: 0.407 seconds

使用函数
hive> select my_lower(name) from test10;

 

上面介绍了HIVE中的自定义函数,有一些函数是比较基础的,公用的,每次都要create temporary function不免太麻烦了。
这样的基础函数需要直接集成到hive中去,避免每次都要创建。

1,添加函数文件$HIVE_HOME/src/ql/src/java/org/apache/hadoop/hive/ql/udf/UDFSunwg.java
package org.apache.hadoop.hive.ql.udf;

import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

public final class UDFSunwg extends UDF {
  public Text evaluate(final Text s) {
    if (s == null) { return null; }
    return new Text(s.toString().concat(“sunwg”).toLowerCase());
  }
}

2,将函数sunwg注册到hive的函数列表中
修改$HIVE_HOME/src/ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java文件
import org.apache.hadoop.hive.ql.udf.UDFSunwg;

registerUDF(“sunwg”, UDFSunwg.class,false);

3,测试函数sunwg
hive> select sunwg(“abc”) from sunwg00 limit 1;   
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there’s no reduce operator
Starting Job = job_201104091858_381437, Tracking URL = http://hdpjt:50030/jobdetails.jsp?jobid=job_201104091858_381437
Kill Command = /home/dwapp/hadoop/bin/../bin/hadoop job  -Dmapred.job.tracker=hdpjt:9001 -kill job_201104091858_381437
2011-04-21 16:01:28,733 Stage-1 map = 0%,  reduce = 0%
2011-04-21 16:01:34,123 Stage-1 map = 50%,  reduce = 0%
2011-04-21 16:01:35,543 Stage-1 map = 100%,  reduce = 0%
Ended Job = job_201104091858_381437
OK
abcsunwg
Time taken: 48.53 seconds

总结:在hive中添加函数是如此的简单,建议将公共的基础函数添加到hive中,而一些个性化的函数还是创建临时函数。

<think>嗯,用户想知道如何在Hive中创建和使用自定义函数UDF。我之前整理过相关的引用资料,现在需要把这些信息整合成一个清晰的步骤指南。首先,Hive自定义函数有三种类型:UDF、UDTF和UDAF。用户可能只需要基础的UDF,但最好都简要介绍一下。 根据引用[4],UDF处理单行输入,返回单个输出,比如字符串操作。UDTF处理一行输入,输出多行,类似explode函数。UDAF则是聚合函数,处理多行返回一个结果,比如SUM。用户的问题是关于创建和使用,所以重点在UDF,但可能需要提到其他类型。 接下来,创建UDF的步骤。引用[2]提到需要编写Java类,继承org.apache.hadoop.hive.ql.exec.UDF,并实现evaluate方法。然后打包成JAR,上传到Hive服务器。之后用CREATE FUNCTION注册函数,可能需要ADD JAR,具体要看Hive版本。临时函数和永久函数的区别,引用[3]和[5]中的例子,临时函数用TEMPORARY,会话结束就消失,永久的需要指定数据库。 具体案例部分,比如字符串大写换,用户可能需要一个简单的例子。代码示例会帮助理解,但要注意语法正确。然后注册函数的命令,引用[2]和[3]中的语法,是否需要指定类全名,临时函数和永久函数的创建方式不同。 使用自定义函数时,直接像内置函数一样调用。引用[4]提到可能需要处理JSON数据,比如用JSONObject和JSONArray,但用户的问题可能更基础,所以例子保持简单。 注意事项部分,版本兼容性、资源管理和函数作用域,这些是常见问题,引用[2]和[5]提到DROP FUNCTION和ADD JAR的步骤,需要注意路径问题。 相关问题部分,需要生成几个相关的问题,比如性能优化、UDTF的使用、调试方法、与Hive内置函数的对比,以及Hive版本的影响。这些能帮助用户进一步探索。 确保回答结构清晰,分步骤说明,并引用正确的来源。检查是否有遗漏的步骤,比如打包JAR和上传的细节,可能需要用户有Hive和Hadoop的环境权限。同时,注意临时函数和永久函数的区别,以及是否需要重启会话或重新注册的问题。</think>### Hive自定义函数(UDF)创建与使用指南 #### 一、Hive自定义函数类型 Hive支持三种自定义函数类型[^4]: 1. **UDF(User-Defined Function)**:单行输入 → 单行输出,如字符串操作 2. **UDTF(User-Defined Table Function)**:单行输入 → 多行输出,类似`explode`函数 3. **UDAF(User-Defined Aggregate Function)**:多行输入 → 单行输出,如自定义聚合统计 #### 二、创建标准UDF的步骤 1. **编写Java类** 继承`org.apache.hadoop.hive.ql.exec.UDF`类,实现`evaluate`方法: ```java import org.apache.hadoop.hive.ql.exec.UDF; public class ToUpperCaseUDF extends UDF { public String evaluate(String input) { return input == null ? null : input.toUpperCase(); } } ``` 2. **打包与部署** ```bash mvn clean package # 生成JAR文件 hadoop fs -put myudf.jar /user/hive/lib/ # 上传到HDFS ``` 3. **注册函数** - **临时函数**(会话级有效): ```sql ADD JAR /path/to/myudf.jar; CREATE TEMPORARY FUNCTION my_upper AS 'com.example.ToUpperCaseUDF'; [^3] ``` - **永久函数**: ```sql CREATE FUNCTION dbname.my_upper AS 'com.example.ToUpperCaseUDF' USING JAR 'hdfs:///user/hive/lib/myudf.jar'; [^2] ``` #### 三、使用自定义函数 注册后可直接在SQL中使用: ```sql SELECT my_upper(username), COUNT(*) FROM user_table GROUP BY my_upper(username); [^4] ``` #### 四、关键注意事项 1. **版本兼容性**:需使用与Hive服务端匹配的Hadoop依赖版本[^5] 2. **资源管理**:永久函数需要HDFS路径存储JAR包,临时函数会话结束自动释放[^2] 3. **函数作用域**:永久函数需通过`dbname.funcname`跨库调用 4. **调试技巧**:可通过`DESCRIBE FUNCTION my_upper;`查看函数定义 #### 五、完整操作示例 ```sql -- 添加JAR到classpath ADD JAR /home/user/udf/myudf.jar; -- 创建临时函数 CREATE TEMPORARY FUNCTION str_reverse AS 'com.example.StringReverseUDF'; -- 使用函数查询 SELECT str_reverse(employee_name) FROM employee WHERE department = 'IT'; ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值