用python实现Hive中的UDF函数

用python实现Hive中的UDF函数

简介

Hive为我们提供了众多的内置函数,但是在实际的运用过程中仍然不能满足我们所有的需求.hive是用java开发的,本身提供了使用java去开发UDF的方式.而这里我们采用python的方式去实现UDF函数.

DEMO实现

我们这里用python自定义函数,去实现一个方法,利用身份证号去判断性别(18位身份证的倒数第二位偶数为女,奇数为男.15位身份证的倒数第一位偶数为女,奇数为男.).其实这个需求可以使用hive自带的function去进行解决.我们接下来使用2种方式去实现这个需求.

数据准备

我们在hive上创建一个external表(名字person表),执行如下代码:

create external table person(
name string,
idcard string)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'
STORED as TEXTFILE;

该表两个字段,一个为name,另一个为idcard 
数据格式如下:

neil    411326199402110030
pony    41132519950911004x
jcak    12312423454556561
tony    412345671234908

field分隔符使用\t 
我们将数据放入hive的warehouse中:

hdfs dfs -put person.txt /user/hive/warehouse/test_neil.db/person

执行select,我们发现数据已经进入到hive了.

使用Hive Function去实现

我们可以执行一下的hql去实现

select idcard,
case when length(idcard) = 18 then
             case when substring(idcard,-2,1) % 2 = 1 then '男' 
             when substring(idcard,-2,1) % 2 = 0 then '女' 
             else 'unknown' end 
     when length(idcard) = 15 then 
            case when substring(idcard,-1,1) % 2 = 1 then '男'
            when substring(idcard,-1,1) % 2 = 0 then '女'
            else 'unknown' end
     else '不合法' end 
from person;

得到的结果如下(beeline下):

+---------------------+------+--+
|       idcard        | _c1  |
+---------------------+------+--+
| 12312423454556561   | 不合法  |
| 123124234545565     | 男    |
| 411325199308110030  | 男    |
| 41132519950911004x  | 女    |

UDF编写

如下是我们的udf代码:

# -*- coding: utf-8 -*-
import sys

for line in sys.stdin:
    detail = line.strip().split("\t")
    if len(detail) != 2:
        continue
    else:
        name = detail[0]
        idcard = detail[1]
        if len(idcard) == 15:
            if int(idcard[-1]) % 2 == 0:
                print("\t".join([name,idcard,"女"]))
            else:
                print("\t".join([name,idcard,"男"]))
        elif len(idcard) == 18:
            if int(idcard[-2]) % 2 == 0:
                print("\t".join([name,idcard,"女"]))
            else:
                print("\t".join([name,idcard,"男"]))
        else:
            print("\t".join([name,idcard,"身份信息不合法!"]))

这里我们使用python的重定向,将hive控制台的输出进行split,split默认使用的为\t.然后根据split后的idcard的倒数第二位进行判断这个人的性别.

 测试

我们在hive中去执行查询时,报错的提示不是很详细.我们可以使用cat指令去测试python脚本的执行效果. 
我们在终端中执行如下指令:

cat person.txt|python person.py

输入结果如下:

neil    411325199308110030  男
pony    41132519950911004x  女
jack    12312423454556561   身份信息不合法!
tony    123124234545565 男

说明我们的解析是成功的.

使用

我们在hive中使用python定义的UDF函数要借助transform函数去执行. 
transform函数的语法如下:

SELECT TRANSFORM (<columns>)
USING 'python <python_script>'
AS (<columns>)
FROM <table>;

transfrom和as的columns的个数不必一致. 
我们首先需要将我们的person.py加载入

我们在hive中去执行如下代码:

add file /xxx/person.py

xxx为本地文件的路径. 
然后使用transform函数执行:

select transform(name,idcard) USING 'python person.py'  AS (name,idcard,gender) from person;

java版本也需要打成jar包,使用add方式添加到hive中

add jar jar_path;

并且要创建函数:

create function fun_name as 'java class name' USING jar 'hdfs_jar_path';
// 上方为官方文档案例,下面的是我自己写的,属于临时函数,重启hive后失效
create function fun_name as 'java class name';

查询:

select fun_name(字段...) from table_name;

我们同样可以得到如下的结果:

neil    411325199308110030  男
pony    41132519950911004x  女
jack    12312423454556561   身份信息不合法!
tony    123124234545565 男

后续会使用个人站点:topabu.com来 记录工作学习的笔记、经验等

关注阿布的进击,获取最新信息

阿布的进击

<think>嗯,用户之前已经问过自定义UDF函数,现在又问Hive UDF实现,可能需要更具体的步骤。首先,我要确定用户的需求是什么。可能他们现在在使用Hive,遇到了需要扩展功能的情况,而内置函数不够用。用户可能是一名数据工程师或者数据分析师,需要处理大数据,用Hive进行数据清洗或复杂计算。 接下来,我需要回顾Hive UDF的不同类型,比如普通UDF、UDAF和UDTF,因为用户可能不清楚这些区别。然后,实现步骤是关键,用户需要具体的代码示例和注册方法。用户可能对Java比较熟悉,因为Hive UDF通常用Java编写,但也要提到其他语言的可能性,比如Python,虽然Hive原生支持可能有限。 然后,注意事项部分很重要,比如性能问题、错误处理、版本兼容性。用户可能在开发过程中会遇到性能瓶颈,或者部署时的依赖问题。另外,测试用例也是用户需要的,他们可能想知道如何验证自己的UDF是否正确。 用户可能还有更深的疑问,比如如何优化UDF的性能,或者如何处理复杂数据类型,比如数组或Map。所以,在回答时要涵盖这些高级用法,并给出示例。同时,要提醒用户优先使用内置函数,避免不必要的UDF带来的维护成本。 最后,确保结构清晰,步骤分解明确,代码示例正确,并且符合用户之前提到的格式要求,比如数学公式用$$包裹,代码块用正确语法高亮。还要检查是否所有行内公式都用了$符号,独立公式单独成段,避免格式错误。需要确认是否涵盖了用户可能的痛点,比如部署步骤、依赖管理,以及实际应用场景,帮助用户更好地理解和应用Hive UDF。</think>好的,我将通过具体步骤介绍Hive UDF实现方法: --- ### **1. Hive UDF基础原理** Hive UDF通过Java类继承特定父类实现,核心处理逻辑发生在`evaluate()`方法中,其执行流程可表示为: $$ \text{输入数据} \xrightarrow{\text{UDF映射}} \text{处理结果} $$ #### **UDF类型对比** | 类型 | 父类 | 功能特点 | |-----------|---------------------|--------------------| | 普通UDF | `UDF` | 一进一出(单行处理) | | 聚合UDF(UDAF)| `UDAF` | 多进一出(分组聚合) | | 表生成UDF(UDTF)| `GenericUDTF` | 一进多出(行转列) | --- ### **2. 标准开发流程** #### **(1) 创建Java类** ```java // 示例:字符串反转UDF package com.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public class ReverseStringUDF extends UDF { public Text evaluate(Text input) { if (input == null) return null; return new Text(new StringBuilder(input.toString()).reverse().toString()); } } ``` #### **(2) 编译打包** ```bash # 需包含Hive依赖(hive-exec.jar) javac -cp /path/to/hive/lib/* ReverseStringUDF.java jar cf udf.jar com/hive/udf/*.class ``` #### **(3) Hive注册** ```sql -- 上传JAR到HDFS(生产环境推荐) ADD JAR /local/path/udf.jar; -- 创建临时函数 CREATE TEMPORARY FUNCTION reverse_udf AS 'com.hive.udf.ReverseStringUDF'; ``` #### **(4) 调用验证** ```sql SELECT reverse_udf('hello'); -- 输出'olleh' ``` --- ### **3. 高级实现技巧** #### **(1) 多参数处理** ```java // 计算两点间距离 public class DistanceUDF extends UDF { public Double evaluate(Double x1, Double y1, Double x2, Double y2) { return Math.sqrt(Math.pow(x2-x1,2) + Math.pow(y2-y1,2)); } } ``` 调用方式:`SELECT distance_udf(116.40,39.90,121.47,31.23)` #### **(2) 复杂类型处理** 处理`ARRAY`类型: ```java public class ArraySumUDF extends UDF { public Double evaluate(List<Double> arr) { return arr.stream().mapToDouble(Double::doubleValue).sum(); } } ``` #### **(3) 优化技巧** - **缓存重用对象**:避免在`evaluate()`中频繁创建对象 - **类型检查**:增加空值处理逻辑 - **使用Writable类型**:正确使用`Text/IntWritable`等Hadoop类型 --- ### **4. 调试与部署** #### **(1) 单元测试** ```java @Test public void testReverseUDF() { ReverseStringUDF udf = new ReverseStringUDF(); assertEquals("cba", udf.evaluate(new Text("abc")).toString()); } ``` #### **(2) 错误排查** - 查看Hive日志:`tail -f /tmp/{user}/hive.log` - 常见错误码: - `SemanticException [Error 10011]: Invalid function` → 类路径错误 - `ClassNotFoundException` → JAR未正确加载 --- ### **5. 实际应用案例** #### **(1) 数据脱敏** ```java // 手机号中间四位脱敏 public String evaluate(String phone) { return phone.replaceAll("(\\d{3})\\d{4}(\\d{4})", "$1****$2"); } ``` #### **(2) JSON解析** ```sql SELECT json_get(info, '$.user.address') FROM log_table; ``` --- ### **6. 注意事项** 1. **性能影响**:UDF会引发MapReduce任务,避免在超大规模数据集逐行调用 2. **版本兼容**:Hive 2.x与3.x的UDF接口存在差异 3. **热部署**:修改UDF后需`RELOAD FUNCTION` 4. **安全限制**:禁止在UDF中执行系统命令 --- **最佳实践建议**: 优先使用Hive内置函数(约300+个),仅在以下场景使用UDF: - 特定业务逻辑(如金融行业计算IRR) - 特殊格式解析(非标准JSON/XML) - 性能敏感型计算(需结合Java本地代码优化)
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值