今天做一期分享Hive的UDF函数和使用的的整个过程
场景
业务需求,想要实现姓名的脱敏
一个字的姓名,提示“单字姓名无法映射”
两个字的,加密后一位,例如:张三,张*
三个字及以上的保留第一位和最后一位
针对此场景一个好的udf实现,即可万事大吉
建立Maven工程
pom文件导入必要依赖hive-exec和hive-common,我的是Hive3.1.2,请根据自己的HIve版本导入依赖,具找依赖可以到以下链接找寻
Maven Repository
以下为我的pom文件的依赖
<dependencies>
<!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>3.1.2</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.hive/hive-common -->
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-common</artifactId>
<version>3.1.2</version>
</dependency>
</dependencies>
编写Java代码,继承GenericUDF类,重写initialize、evaluate、getDisplayString三个方法
以下是我的Java代码,定义了一个JiamiFunction类
package com.brilliance;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.StringObjectInspector;
/**
* @author chad
* @since 2025/8/25
*/
public class JiamiFunction extends GenericUDF{
private StringObjectInspector stringInspector;
@Override
public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {
if (arguments.length != 1) {
throw new UDFArgumentLengthException("该函数只接受1个参数");
}
stringInspector = (StringObjectInspector) arguments[0];
return PrimitiveObjectInspectorFactory.javaStringObjectInspector;
}
@Override
public Object evaluate(GenericUDF.DeferredObject[] arguments) throws HiveException {
String name = stringInspector.getPrimitiveJavaObject(arguments[0].get());
if (name == null || name.trim().isEmpty()) {
return "数据为空无法映射";
}
name = name.trim();
if (!name.matches("^[\u4e00-\u9fa5]+$")) {
return "非汉字姓名无法处理";
}
int length = name.length();
if (length == 1) {
return "单字姓名无法映射";
} else if (length == 2) {
return name.charAt(0) + "*";
} else {
return name.charAt(0) + "**" + name.charAt(length - 1);
}
}
@Override
public String getDisplayString(String[] children) {
return "姓名脱敏函数";
}
}
写完这个类之后,就可以打包了,点击打包,生成一个jar包

上传jar包到hdfs,随便放到一个目录,我的放在以下位置

Hive中函数注册及使用
在Hive中执行以下命令
加载jar包
add jar hdfs:///udfs/jiami.jar;
创建函数
CREATE FUNCTION day02_hive.to_namejiami
AS 'com.brilliance.JiamiFunction'
USING JAR 'hdfs:///udfs/jiami.jar';
效果展示,我的Hive中创建了一张表hero,其中有一列为name,查询如下

使用我刚才创建的udf函数后
select name,
to_namejiami(name)
from hero;

效果实现,希望我的分享可以帮助到你

750

被折叠的 条评论
为什么被折叠?



