背景:报案系统,每个用户的报案信息按照各自的当前的进展环节被记录,并且统一环节可能有多条记录,需取最近一次更新的记录。现要将所需的字段挑选出来并生成一行新的记录,保证一人一条记录,若无对应信息则显示NULL。
数据格式:id(bigint)为主键值;user_id(bigint)为用户;type(int)为不同的环节;context(string-key-value)为各环节对应的信息。
目标格式:
思路:
1、首先由于同一用户同一环节会有多次记录,需对同一type的进行排序,取出最新的记录。
通常的排序按照每条记录的创建时间order by,但当有主键时,按照主键排序也可行。
row_number() over(PARTITION BY user_id ,type ORDER BY id desc) row
注:desc 降序 asc 升序
2、接下来把同一用户的不同type下的context拼接成一个完整的context(array),方便后续统一取需要的信息。
2.1、首先想到用collect_list进行拼接,可以得到:
但在实际操作中发现,在任务开发平台,对type进行排序后拼接并不是按照type值的大小进行排序,而仍是根据字典排序。这使得后续打碎取value非常麻烦。但是此方法在hue可行(关系到本公司数据开发平台与hue的函数设置??)。
注:collect_list和collect_set。都是将分组中的某