HIVE 列转行 字段分组截取随笔#collect_list/collect_set

本文介绍了如何在Hive中处理列转行的问题,特别是针对报案系统的数据,需要将同一用户的多条记录整合成一行。通过row_number()函数对记录排序,然后使用collect_list或collect_set进行字段拼接。文章探讨了collect_list的字典排序问题,并提出使用map函数和join操作来按需顺序整合context字段,避免explode和额外拆列的复杂步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景:报案系统,每个用户的报案信息按照各自的当前的进展环节被记录,并且统一环节可能有多条记录,需取最近一次更新的记录。现要将所需的字段挑选出来并生成一行新的记录,保证一人一条记录,若无对应信息则显示NULL。

数据格式:id(bigint)为主键值;user_id(bigint)为用户;type(int)为不同的环节;context(string-key-value)为各环节对应的信息。
在这里插入图片描述
目标格式:
在这里插入图片描述
思路:
1、首先由于同一用户同一环节会有多次记录,需对同一type的进行排序,取出最新的记录。
通常的排序按照每条记录的创建时间order by,但当有主键时,按照主键排序也可行。
row_number() over(PARTITION BY user_id ,type ORDER BY id desc) row
注:desc 降序 asc 升序

2、接下来把同一用户的不同type下的context拼接成一个完整的context(array),方便后续统一取需要的信息。
2.1、首先想到用collect_list进行拼接,可以得到:
在这里插入图片描述
但在实际操作中发现,在任务开发平台,对type进行排序后拼接并不是按照type值的大小进行排序,而仍是根据字典排序。这使得后续打碎取value非常麻烦。但是此方法在hue可行(关系到本公司数据开发平台与hue的函数设置??)。
注:collect_list和collect_set。都是将分组中的某

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值