Hive复杂日志数据类型的存储与解析

本文介绍了如何处理Hive中复杂日志数据类型的存储与解析,包括ARRAY、MAP、STRUCT等类型。在场景一中,展示了简单的JSON数据存储和解析方法。在场景二,针对特定日志格式,通过使用特定Hive数据类型存储,并使用Hive函数进行解析。在场景三,提出了两种解决复杂字段解析的方法:硬解析和转化格式爆炸。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、基础概览

1.问题背景
  • 实际工作中会遇到很多复杂数据类型,尤其是离线日志中的嵌套json,本文列举几种常见的复杂格式,同时给出存储和解析方法。
2.复杂类型
  • ARRAYARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits,它是由[‘apple’,‘orange’,‘mango’]组成,那么我们可以通过fruits[1]来访问元素orange,因为ARRAY类型的下标是从0开始的;
  • MAPMAP包含key->value键值对,可以通过key来访问元素。比如”userlist”是一个map类型,其中username是key,password是value;那么我们可以通过userlist[‘username’]来得到这个用户对应的password;
  • STRUCTSTRUCT可以包含不同数据类型的元素。这些元素可以通过”点语法”的方式来得到所需要的元素,比如user是一个STRUCT类型,那么可以通过user.address得到这个用户的地址。

二、场景一

1.日志格式
给出两条日志数据如下,日志本身是一个json,其中event_values又嵌套了一层json。

{
   
	"user_id":"1",
	"event_name":"people",
	"event_values":
		"{
   
			"search_word":"hui",
			"search_res":[192061100,819430495],
			"with_result":true
		}",
	"client_timestamp":1500762196
}

{
   
	"user_id":"2",
	"event_name":"company",
	"event_values":
		"{
   
			"search_word":"doug",
			"search_res":[81943049,5192025160,85303900],
			"with_result":true
		}",
	"client_timestamp":1500818667
}
2.Hive存储

日志数据接入数仓,一般先存放在ods层,这种比较简单的json数据可以直接存储String类型,建表语句:

CREATE EXTERNAL TABLE `ods_user_info`(	 	
  `user_id` string, 	
  `event_name` string
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值