hive 解析json对象的数组,并完成列传行

参考链接:https://blog.youkuaiyun.com/lfq1532632051/article/details/63262519

直接上例子,下面是我要处理的 json 数据格式

{
    "IP": "192.168.1.1",
    "appName": "sichuan_yunyingyong",
    "customEvent": [
        {
            "eventName": "xx1",
            "du": "xx",
            "timestamp": "1480521763049",
            "eventParams": {
                "ContentID": "yixiuge",
                "account": "13856976635",
                "networkType": "WIFI",
                "result": "0",
                "type": "11"
            }
        },
        {
            "eventName": "xx2",
            "du": "xx",
            "timestamp": "1480521763049",
            "eventParams": {
                "ContentID": "yixiuge",
                "account": "13856976636",
                "networkType": "WIFI",
                "result": "0",
                "type": "11"
            }
        }
    ]
}

这里面有json对象,还有json array,json对象好解析,json array不好解析,接下来两者都讲解下,需要使用 lateral view

select

j1.j1_ip,

j1.j1_appName,

j2.j2_customEvent_json

FROM tab_json s

lateral view json_tuple(s.json, 'IP', 'appName', 'customEvent') j1 as j1_ip, j1_appName, j1_customEvent

lateral view posexplode(split(regexp_replace(regexp_replace(j1.j1_customEvent,'\\}\\,\\{','\\}\\|\\|\\{'),'\\[|\\]',''), '\\|\\|')) j2 as j2_customEvents_pos, j2_customEvent_json

这个表 tab_json是包含json数据的表,json是json数据的字段,结果为

192.168.1.1     sichuan_yunyingyong     {"eventName":"xx1","du":"xx","timestamp":"1480521763049","eventParams":{"ContentID":"yixiuge","account":"13856976635","networkType":"WIFI","result":"0","type":"11"}}

192.168.1.1     sichuan_yunyingyong     {"eventName":"xx2","du":"xx","timestamp":"1480521763049","eventParams":{"ContentID":"yixiuge","account":"13856976636","networkType":"WIFI","result":"0","type":"11"}}

json数据就是直接把key当成字段,直接把key作为json_tuple方法的参数即可,这种解析json对象比较简单,如json_tuple(s.json, 'IP') 就是取json中字段IP的值,

但是,为什么原来是一条记录怎么解析成2条记录了呢,问题如下

posexplode(split(regexp_replace(regexp_replace(j1.j1_customEvent,'\\}\\,\\{','\\}\\|\\|\\{'),'\\[|\\]',''), '\\|\\|')) j2 as j2_customEvents_pos, j2_customEvent_json

我把json array的格式通过替换变成了 {json1} || {json2} , 这种格式再根据 || 来拆开,形成了一个有两个元素的数组

注意:hive转义符需要写两个 \

接着 posexplode 在把数组变成(pos, json) 的键值对,pos记录了元素的位置,json就是实际的json数据,这样一条数据就变成了两条了,这点要注意,数据量因为这种操作,成倍的增加

如果想获取array中的eventName和timestamp字段怎么办呢,在上一部的基础上愉快的使用get_json_object就好了

select

j1.j1_ip,

j1.j1_appName,

j2.j2_customEvent_json,

get_json_object(j2.j2_customEvent_json, '$.eventName') as eventName,
get_json_object(j2.j2_customEvent_json, '$.timestamp') as timestamp,

FROM tab_json s

lateral view json_tuple(s.json, 'IP', 'appName', 'customEvent') j1 as j1_ip, j1_appName, j1_customEvent

lateral view posexplode(split(regexp_replace(regexp_replace(j1.j1_customEvent,'\\}\\,\\{','\\}\\|\\|\\{'),'\\[|\\]',''), '\\|\\|')) j2 as j2_customEvents_pos, j2_customEvent_json

结果如下:

192.168.1.1     sichuan_yunyingyong   xx1  1480521763049 {"eventName":"xx1","du":"xx","timestamp":"1480521763049","eventParams":{"ContentID":"yixiuge","account":"13856976635","networkType":"WIFI","result":"0","type":"11"}}

192.168.1.1     sichuan_yunyingyong  xx2 1480521763049 {"eventName":"xx2","du":"xx","timestamp":"1480521763049","eventParams":{"ContentID":"yixiuge","account":"13856976636","networkType":"WIFI","result":"0","type":"11"}}

解释了这点,那么我想获取IP , appName , account 字段怎么办呢,我直接给出sql语句了

select

j1.j1_ip,

j1.j1_appName,

j4.j4_account

FROM tab_json s

lateral view json_tuple(s.json, 'IP', 'appName', 'customEvent') j1 as j1_ip, j1_appName, j1_customEvent

lateral view posexplode(split(regexp_replace(regexp_replace(j1.j1_customEvent,'\\}\\,\\{','\\}\\|\\|\\{'),'\\[|\\]',''), '\\|\\|')) j2 as j2_customEvents_pos, j2_customEvent_json

lateral view json_tuple(j2.j2_customEvent_json, 'eventParams') j3 as j3_eventParams

lateral view json_tuple(j3.j3_eventParams, 'account') j4 as j4_account

结果如下:

192.168.1.1     sichuan_yunyingyong     13856976635

192.168.1.1     sichuan_yunyingyong     13856976636

上面的例子json array有两个元素,如果你只关注其中一个元素,那么可以如下操作

lateral view posexplode(array(split(regexp_replace(regexp_replace(j1.j1_customEvent,'\\}\\,\\{','\\}\\|\\|\\{'),'\\[|\\]',''), '\\|\\|')[1])) j2 as j2_customEvents_pos, j2_customEvent_json

split 跟上数组下标,就能取出某个元素,由于posexplode只接受 array类型的参数,可以使用array函数转换成对应的数组,这样就只有一条数据了,结果如下

192.168.1.1     sichuan_yunyingyong     13856976636

总结下:

在现在的hive版本中,hive 2还没有试用,不知道是不是已经引入了json array的解析函数了,目前的版本是不能通过方法解析的,

思路是,通过给json array替换字符,由原来的 [ {} , {} ] 变成 {} || {} 这样,在转换成数组用 posexplode 函数,这样就可以了

当然实际使用时数据放大也要注意,如果json array只有一个元素就不会放大

在只有一个元素的情况下,直接把 [ ] 去掉,用array 转成数组即可

以后可以自己写一个UDF来解析json array,欲知详情,请听下回分解

### 解析包含嵌套数组JSON数据 在处理复杂的JSON结构时,特别是当这些结构中包含了嵌套数组的情况下,在Hive中的确存在一定的挑战。为了有效地解析这种类型的JSON文档提取所需的数据,可以利用`openx-jsonserde`工具来简化这一过程[^1]。 对于带有复杂结构如嵌套对象数组JSON文件来说,不需要定义整个模式(schema),但是建议尽可能详尽地描述预期读取的部分。如果遇到不同版本间字段有所变化的情况——比如提到的第一版和第二版JSON文档之间的差异,则可以通过灵活配置SerDe参数适应这种情况下的变动而不必重新设计整体架构。 具体到操作层面,假设有一个存储于字符串列`json_column`内的JSON记录,其中含有名为`items`的数组属性: ```sql -- 创建临时函数以便使用OpenX JSON Serde ADD JAR /path/to/json-serde.jar; CREATE TEMPORARY FUNCTION json_tuple AS 'org.openx.data.jsonserde.JsonTuple'; -- 使用LATERAL VIEW explode() 来展开数组项 SELECT t.item['key_name'] as key_value FROM ( SELECT explode(json_tuple(cast(json_column AS string), 'items')) AS item FROM your_table ) t; ``` 上述SQL语句展示了如何通过创建临时函数引入外部库支持,进而调用特定方法完成对目标路径下JSON序列化数据的操作;接着借助`LATERAL VIEW explode()`实现将单个单元格内部多个值按照一定规则拆分成多显示的效果。 值得注意的是,虽然这里展示的例子仅涉及到了一层深度的数组解析,但在实际应用当中可能还会碰到更深层次的对象嵌套情况。此时可以根据实际情况调整查询逻辑以满足需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值