hive 存储,解析,处理json数据
hive 处理json数据总体来说有两个方向的路走
1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。
2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。
测试数据为新浪微博测试公开数据
该数据采用json格式存储,
id代表当前用户微博的id,
ids代表当前微博用户关注其他微博用户的id列表,
total_number是关注微博用户的总量。
{"id": 1701439105,"ids": [2154137571,3889177061,1496915057,……,1663973284],"total_number": 493}
第一种:
导入数据
CREATE TABLE IF NOT EXISTS tmp_json_test ( json string ) STORED AS textfile ; load data local inpath '/opt/datas/weibotest.json' overwrite into

本文介绍了如何在Hive中处理JSON数据,包括两种主要方法:1) 使用UDF如LATERAL VIEW json_tuple解析存储为字符串的JSON;2) 利用第三方的JsonSerDe在导入前解析JSON。通过具体例子展示了导入Twitter公开数据的过程,并提到了处理坏数据和JSON包含Hive关键字时的解决方案。
最低0.47元/天 解锁文章
500

被折叠的 条评论
为什么被折叠?



