LATERVAL VIEW json_tuple 炸开JSON串

原创于 2025-09-24 11:02:07 发布 · 209 阅读
0 ·
CC 4.0 BY-SA版权
文章标签：
#json
大数据开发-数据仓库-Hive 专栏收录该内容
24 篇文章
订阅专栏
核心概念解析
json_tuple:
它是一个 Hive 内置的用户定义表生成函数 (UDTF)。
功能： 它接受一个 JSON 字符串和一组键（key），然后返回这些键对应的值（value）。
优势： 相比于 get_json_object，json_tuple 在一次调用中可以提取多个键，性能更高，因为只需要对 JSON 字符串解析一次。
LATERAL VIEW:
UDTF 函数（如 explode, json_tuple）会为每个输入行生成一个或多个输出行。LATERAL VIEW 的作用是将这些输出结果与原始表的每一行进行关联（类似笛卡尔积），从而形成一个新视图。
简单理解：它允许你在 SELECT 子句中连接 UDTF 产生的结果。
组合起来的功能： LATERAL VIEW json_tuple 可以解读为："为原始表的每一行，解析其 JSON 字符串列，并将解析出的多个 key 对应的 value 生成新的列，然后把这些新列连接到原始行上。"

语法结构
sql
SELECT 
    original_column1,
    original_column2,
    extracted_col1,
    extracted_col2,
    ...
FROM your_table
LATERAL VIEW json_tuple(your_json_column, 'key1', 'key2', 'key3') jt 
AS extracted_col1, extracted_col2, extracted_col3;
your_table: 源表名。
your_json_column: 包含 JSON 字符串的列名。
‘key1‘, ’key2‘: 你想要从 JSON 中提取的键。
jt: 这是为 json_tuple 生成的虚拟表的表别名（Table Alias），这是必须的。
AS extracted_col1, ...: 为 json_tuple 提取出的值指定列别名，顺序必须与键的顺序一一对应。

示例
假设我们有一张名为 user_events 的表，其中有一列 event_json 存储着 JSON 格式的字符串数据。

表 user_events:

id	event_json
1	{"user_id": "1001", "name": "Alice", "action": "login", "device": "iPhone"}
2	{"user_id": "1002", "name": "Bob", "action": "purchase", "item_id": "A123", "price": 29.99}
3	{"user_id": "1003", "name": "Charlie", "action": "logout"}

示例 1：提取基本字段
我们想提取 user_id, name, 和 action 字段。

sql
SELECT 
    id,
    extracted_user_id,
    extracted_name,
    extracted_action
FROM user_events
LATERAL VIEW json_tuple(event_json, 'user_id', 'name', 'action') jt 
AS extracted_user_id, extracted_name, extracted_action;
查询结果：

id	extracted_user_id	extracted_name	extracted_action
1	1001	Alice	login
2	1002	Bob	purchase
3	1003	Charlie	logout
示例 2：处理可能不存在的字段
JSON 对象的字段可能不是每一行都有。例如，第二行有 item_id 和 price，但其他行没有。json_tuple 对于不存在的键会返回 NULL。

我们尝试提取所有可能的字段，包括可能不存在的 item_id 和 price。

sql
SELECT 
    id,
    extracted_user_id,
    extracted_name,
    extracted_action,
    extracted_item_id,
    extracted_price
FROM user_events
LATERAL VIEW json_tuple(event_json, 'user_id', 'name', 'action', 'item_id', 'price', 'device') jt 
AS extracted_user_id, extracted_name, extracted_action, extracted_item_id, extracted_price, extracted_device;
查询结果：

id	extracted_user_id	extracted_name	extracted_action	extracted_item_id	extracted_price	extracted_device
1	1001	Alice	login	NULL	NULL	iPhone
2	1002	Bob	purchase	A123	29.99	NULL
3	1003	Charlie	logout	NULL	NULL	NULL
可以看到，第一行没有 item_id 和 price，所以对应位置为 NULL。第二行没有 device，同样为 NULL。第三行只有最基本的三个字段。

示例 3：与其他 LATERAL VIEW 操作结合
有时一个 JSON 字段内部可能包含一个数组，需要先炸开数组，再解析数组内的每个元素。这时可以使用多个 LATERAL VIEW。

假设有一行数据如下，actions 是一个 JSON 数组：

id	event_json
4	{"user_id": "1004", "actions": [{"action": "view", "page": "home"}, {"action": "click", "element": "button"}]}
我们需要先使用 explode 炸开数组，再对数组里的每个 JSON 对象使用 json_tuple。

sql
-- 首先，用 get_json_object 或 json_tuple 取出 actions 数组字符串
-- 然后，用 explode(split(...)) 或其他方法炸开数组（Hive 对原生 JSON 数组支持较弱，常需用 split 处理）
-- 这是一个更复杂的操作，通常需要结合 split, regexp_replace 等函数先处理数组格式。

-- 一个可能的写法（假设数组是简单的字符串表示）：
SELECT 
    id,
    extracted_user_id,
    single_action
FROM user_events
LATERAL VIEW json_tuple(event_json, 'user_id', 'actions') jt 
AS extracted_user_id, actions_str
LATERAL VIEW explode(split(regexp_replace(actions_str, ‘^\\[|\\]$’, ‘’), ‘,\\s*’)) actions 
AS single_action
WHERE id = 4;

-- 更现代的做法（在Hive 3.x+或Spark SQL中）：使用`json_array`相关的函数直接处理。
-- 例如在Spark SQL中，可以直接使用`from_json`配合ArrayType StructType schema，这是更推荐的方式。
注意： 直接解析 JSON 数组是 json_tuple 的短板。对于复杂的嵌套 JSON（尤其是包含数组的），在现代的 Hive 或 Spark 中，
更推荐使用 get_json_object 配合路径表达式 或 from_json 函数（在 Spark SQL 和 Hive 3.x+ 中）来定义完整的 Schema，这样更加灵活和强大。

总结与最佳实践
适用场景： LATERAL VIEW json_tuple 非常适合处理扁平化的 JSON 对象（即没有复杂嵌套，尤其是没有嵌套数组），需要一次提取多个字段的场景。
性能优势： 提取多个字段时，性能优于多次调用 get_json_object。
处理缺失字段： 对于不存在的 key，自动返回 NULL，非常安全。
局限性： 处理复杂的嵌套 JSON（特别是数组）非常麻烦且低效。在这种情况下，应优先考虑：
Spark SQL / Hive 3.x+: 使用 from_json(...) 函数，指定一个完整的 StructType Schema。
通用方法： 使用 get_json_object 并编写 JSONPath 表达式（如 $.user.address.city）来直接访问嵌套字段。
别忘了别名： 必须为 json_tuple 生成的虚拟表（如 jt）和提取的列（如 extracted_id）指定别名。
将JSON 串炸开成列。