Hive函数之rank(),dense_rank(),row_number()排序分析函数

最新推荐文章于 2024-08-05 11:49:09 发布

文艺小卿年

最新推荐文章于 2024-08-05 11:49:09 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： hive 文章标签： Hive

本文链接：https://blog.youkuaiyun.com/qq_41725214/article/details/86544823

hive 专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了Hive中用于数据排序的三个关键函数：RANK(), DENSE_RANK(), ROW_NUMBER()，并展示了它们在处理重复字段时的不同行为。通过具体案例，即按学科成绩排序的场景，清晰对比了各函数的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

函数说明

在Hive中，如果要对有重复字段的数据进行排序时，一般会用到以下几个函数

RANK():排序相同时会重复，总数不会变
DENSE_RANK():排序相同时会重复，总数不会变
ROW_NUMBER():会根据顺序计算

案例及需求介绍

要求按照每门学科成绩进行排序，类似于学校的考试排名
根据结果来看这三个函数的作用就一目了然了

数据准备

孙悟空	语文	87
孙悟空	数学	95
孙悟空	英语	68
大海	语文	94
大海	数学	56
大海	英语	84
宋宋	语文	64
宋宋	数学	86
宋宋	英语	84
婷婷	语文	65
婷婷	数学	85
婷婷	英语	78

建表以及导入数据

create table score(name string,subject string,score int) row format delimited fields terminated by '\t';
load data loacl inpath '/usr/ywq/datas/score.txt' into table score;

三个函数的比较

select *,
rank() over(partition by subject order by score desc),
DENSE_RANK() over(partition by subject order by score desc),
ROW_NUMBER() over(partition by subject order by score desc)
from score;

# 查询结果
score.name      score.subject   score.score     c1      c2      c3
孙悟空              数学                95        1       1       1
宋宋                数学                86        2       2       2
婷婷                数学                85        3       3       3
大海                数学                56        4       4       4
宋宋                英语                84        1       1       1
大海                英语                84        1       1       2
婷婷                英语                78        3       2       3
孙悟空              英语                68        4       3       4
大海                语文                94        1       1       1
孙悟空              语文                87        2       2       2
婷婷                语文                65        3       3       3
宋宋                语文                64        4       4       4