hive的row_number()、rank()和dense_rank()的区别以及具体使用

最新推荐文章于 2024-08-14 00:00:00 发布

转载最新推荐文章于 2024-08-14 00:00:00 发布 · 646 阅读

文章标签：

#rank #dense_rank

数据仓库专栏收录该内容

20 篇文章

订阅专栏

本文详细解释了Hive中的row_number(), rank()和dense_rank()三个内置分析函数的区别及使用场景，通过具体案例展示了它们在数据处理中的作用，并提供了一个实际应用示例，即如何在多表关联中选取最新数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考:https://blog.youkuaiyun.com/qq_20641565/article/details/52841345?locationNum=5&fps=1

2016年10月17日 20:05:21

阅读数：4931

row_number()、rank()和dense_rank()这三个是hive内置的分析函数，下面我们来看看他们的区别和具体的使用案例。

首先创建一个文件test：

A,1 B,3 C,2 D,3 E,4 F,5 G,6

然后创建hive表：

create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;

load数据到表中

load data local inpath '/usr/java/test' overwrite into table test_rank;

执行下面的语句

select a,row_number() over(order by b) row_number,rank() over(order by b) rank, dense_rank() over(order by b) dense_rank from lijie.test_rank;

结果为：

a row_number rank dense_rank A 1 1 1 C 2 2 2 D 3 3 3 B 4 3 3 E 5 5 4 F 6 6 5 G 7 7 6

由此可见：

row_number:不管排名是否有相同的，都按照顺序1，2，3…..n

rank:排名相同的名次一样，同一排名有几个，后面排名就会跳过几次

dense_rank:排名相同的名次一样，且后面名次不跳跃

实际使用：

现在有一个需求: 需要加工一张表M 其中要求要A表，B表，C表的数据加工，A和B表连接字段都是唯一值，但是和C表连接的字段不唯一，如果A join B，然后再Join C 这样加工出来的表数据会不准确，这里需求是需要最新的C表中关联字段的数据。

可以按照如下方法解决(c2是C表的关联字段，通过update_time的降序取最新的那条数据)：

select A.xxx, B.xxx, C.xxx, .... from A left outer join B on A.c1 = B.c1 left outer join ( select cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum from C cc ) C on A.c2 = C.c2 and C.rownum = 1;