关于hive的transform函数对于集合的输入输出

HIVE官方介绍了关于Transform的基础使用方法,但是对于关于存在集合的情况介绍并不清楚

1. 列的分隔符大家都知道是TAB,但如果列的类型是array<int>,array如何传递给transform呢?

array<int>输出给transform脚本的格式是这样: [1,null,2]

即前后被中括号括起来,逗号分隔,如果item为空则输出字符串null

2. 如果是array<string>呢?怎么区分字符串null与真正的空?

array<int>输出给transform脚本的格式是这样: [“hello”,“null“,null],字符串都被双引号引起来了,所以字符串null与真正的null可以正确区分。

3. map<int, string>是怎么输出呢?

map<int, string>输出给transform脚本的格式是这样: {33:"good",4:"bad"},被大括号括起来。

4. struct<a:int, b:string>是怎么输出呢?

struct<a:int, b:string>输出给transform脚本的格式是这样: {"a":null,"b":null}


其实总结起来就是一句,json格式,与select出来看见的一致。但是,问题来了,我们怎么输出一个array<int>,难道也是[1,null,2]这种格式吗,这是不行的,输出的时候,不能带中括号、大括号,而是用\002作为划分items的分隔符,\003作为划分key value的分隔符(HIVE内部其实还有\004-\008作为嵌套分隔符)


以上是在HIVE 1.2.1上测试结论。



### Hive 自定义函数 UDF 处理集合数据 在 Hive 中,可以通过自定义函数(User Defined Function, UDF)来扩展其功能以满足特定的数据处理需求。当涉及到集合类型的字段时,比如数组(ARRAY)、映射(MAP),或者复杂结构化 JSON 数据中的嵌套列表,可以开发专门的 UDF 来实现这些复杂的转换逻辑。 #### 1. 创建支持集合类型处理的 UDF 示例 假设有一个场景:表 `example_table` 的某一列存储了一个字符串形式的数组(JSON 数组)。目标是从该数组中提取指定索引位置的元素并返回结果。 以下是具体实现过程: ##### (1)准备环境和依赖项 确保已安装 JDK 和 Maven 工具链用于构建 Java 项目,并配置好 Hadoop/Hive 环境变量以便编译后的 JAR 文件能够被加载到 Hive 客户端中[^4]。 ##### (2)编写 UDF 类代码 下面是一个简单的例子展示如何通过 Apache Commons Lang 库解析 JSON 字符串并获取其中某个键对应的值作为输出结果之一: ```java import org.apache.hadoop.hive.ql.exec.UDF; import org.json.JSONArray; public class GetElementFromJSONArray extends UDF { public String evaluate(String jsonArrayStr, int index) { try { JSONArray array = new JSONArray(jsonArrayStr); if (index >=0 && index <array.length()) { return array.getString(index); } else {return null;} } catch(Exception e){ System.out.println("Error parsing json:"+e.getMessage()); return null; } } } ``` 此方法接受两个参数——第一个是要分析的目标 JSON 数组;第二个是指定要检索的位置编号。如果提供了有效的输入,则它会尝试访问给定下标的条目并将相应的字符串表示形式返回出去;否则的话就给出 NULL 值[^1]。 ##### (3)打包与部署 完成编码之后将其构建成标准格式(.jar),再上传至 Linux 主机上的适当目录里去。接着利用 ADD JAR 指令引入外部资源文件以及 CREATE TEMPORARY FUNCTION 关联新命名空间下的类对象实例: ```sql ADD JAR /path/to/your/custom_udfs.jar; CREATE TEMPORARY FUNCTION getElementFromArray AS 'com.example.GetElementFromJSONArray'; ``` 此时即可调用刚刚注册成功的临时函数来进行查询操作啦! #### 2. 查询示例 假设有如下记录存在于数据库当中: | id | name | hobbies | |----|-----------|-----------------| | 1 | Alice | ["reading","swimming"] | | 2 | Bob | ["basketball"] | 执行 SQL 如下所示可分别取得每个人的第一兴趣爱好是什么样子滴呢? ```sql SELECT id,name,getelementfromarray(hobbies,0) FROM example_table; -- Output: -- 1,Alice,"reading" -- 2,Bob,"basketball" ``` 以上就是关于怎样运用 Hive 自定义函数针对集合型态资料加以处置的一个基础范例介绍完毕咯~ 下面附上几个延伸思考题目供您参考哦!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值