hive sql—collect_list—内部元素排序

最新推荐文章于 2025-10-28 20:32:40 发布

原创最新推荐文章于 2025-10-28 20:32:40 发布 · 4.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#hive #sql #list

文章讲述了如何使用HiveSQL处理数据集，按用户ID（uid）分组，并将每个用户的得分（score）按日期（dates）升序排序，最后将排序后的日期和得分存储为列表。关键操作包括distributeby和sortby进行分布和排序，以及collect_list函数收集列表。还提到了内存管理和数组大小限制的问题。

部署运行你感兴趣的模型镜像

需求：每个uid，有很多对应的dates(时间)，每个dates 都对应一个分数(score)，我们需要按uid分组，将score 按dates升序排序，将dates 和score放在一个列表。

数据集如下：

原始数据集，如果直接使用collect_list，结果如下(日期没有排序)：

使用以下的方法能解决问题(也有其他方法比较麻烦，这里不赘述)：

详细sql：

select 
    uid,
    collect_list(dates) as dates_list,
    collect_list(score) as score_list
from 
(
    select 
        *
    from 
        base_data
    distribute by uid sort by uid, dates asc
)t0
group by uid
;

sql详解：

这段 Hive SQL 语句中，使用了 distribute by 和 sort by 语句进行分布和排序，然后使用 collect_list 函数对每个分组中的元素进行收集，最后按照 uid 进行分组，返回每个 uid 对应的日期和得分数组。

具体来说，这个语句中的子查询使用 distribute by uid sort by uid, dates asc 语句将数据按照 uid 和 dates 字段进行分布和排序，然后返回排序后的结果。在外层查询中，使用 collect_list 函数分别将每个 uid 分组中的 dates 和 score 字段收集到一个数组中。最后，使用 group by uid 对结果进行分组，返回每个 uid 对应的日期和得分数组。

需要注意的是，这里使用了 asc 关键字将 dates 字段按照升序排序。如果不指定排序方式，默认是升序排序。如果需要按照降序排序，可以使用 desc 关键字，例如 sort by uid, dates desc。

另外，需要注意的是，如果某个 uid 对应的记录较多，导致对应的数组很大，可能会占用较多的内存。因此，在使用 collect_list 函数时需要注意控制数组大小。可以使用 limit 子句限制每个数组的大小，例如 collect_list(dates) as dates_list limit 100，表示每个数组最多包含前100条记录。

您可能感兴趣的与本文相关的镜像