1、系统内置函数
1.查看系统自带的函数
hive> show functions; |
2.显示自带的函数的用法
hive> desc function upper; |
3.详细显示自带的函数的用法
hive> desc function extended upper; |
2、自定义函数
1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。
2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。
3)根据用户自定义函数类别分为以下三种:
(1)UDF(User-Defined-Function)
一进一出
(2)UDAF(User-Defined Aggregation Function)
聚集函数,多进一出
类似于:count/max/min
(3)UDTF(User-Defined Table-Generating Functions)
一进多出
如lateral view explore()
4)官方文档地址
https://cwiki.apache.org/confluence/display/Hive/HivePlugins
5)编程步骤:
(1)继承org.apache.hadoop.hive.ql.exec.UDF
(2)需要实现evaluate函数;evaluate函数支持重载;
(3)在hive的命令行窗口创建函数
a)添加jar
add jar linux_jar_path |
b)创建function
create [temporary] function [dbname.]function_name AS class_name; |
(4)在hive的命令行窗口删除函数
Drop [temporary] function [if exists] [dbname.]function_name; |
6)注意事项
(1)UDF必须要有返回类型,可以返回null,但是返回类型不能为void;
3、自定义UDF函数
1.创建一个Maven工程hiveplugins
2.导入依赖
pom.xml
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> ...... <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.0</version> </dependency> </dependencies> </project> |
导入依赖后记得点这个按钮。
确保加载到库。
如果出现Dependency not found的字样。
可以打开File——Settings。选择Build, Execution, Deployment——Build Tools——Maven。确保Maven home path和User settings file已经设置好了。
3.创建一个类
package com.zhang.hive; import org.apache.hadoop.hive.ql.exec.UDF; public class Lower extends UDF { public String evaluate (final String s) { if (s == null) { return null; } return s.toLowerCase(); } } |
注意:evaluate()方法并不是继承子父类的,而是要自己实现的。
4.打成jar包上传到服务器/export/servers/jars/udf.jar
可以把该文件改名为 udf.jar,然后上传到 hive的lib目录下。
5.将jar包添加到hive的classpath
hive (default)> add jar /export/servers/hive/lib/udf.jar; |
6.创建临时函数与开发好的java class关联
hive (default)> create temporary function mylower as "com.zhang.hive.Lower"; |
7.即可在hql中使用自定义的函数strip
hive (default)> use db_hive; hive (default)> select ename, mylower(ename) lowername from emp; |
以上就是自定义hive函数的基本流程。不过一般常用的需求hive中都包含了。
PS. UDAF多进一出一般是group by、窗口等情况下使用;UDTF一进多出一般是lateral view explode中使用