hive row_number(）用法

最新推荐文章于 2025-05-06 09:00:00 发布

转载最新推荐文章于 2025-05-06 09:00:00 发布 · 3.4k 阅读

文章标签：

#hive #row_number

hive 专栏收录该内容

28 篇文章

订阅专栏

本文深入解析SQL中的row_number(), rank(), dense_rank()等窗口函数的使用方法及应用场景，包括分组排序、连续排序和跳跃排序的特点，以及如何利用row_number()删除重复数据。

1、row_number() over()排序功能：

（1） row_number() over()分组排序功能：

在使用 row_number() over()函数时候，over()里头的分组以及排序的执行晚于 where group by order by 的执行。

partition by 用于给结果集分组，如果没有指定那么它把整个结果集作为一个分组，它和聚合函数不同的地方在于它能够返回一个分组中的多条记录，而聚合函数一般只有一个反映统计值的记录。

例如：employee,根据部门分组排序。

SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (partition by workdept ORDER BY salary desc) rank FROM employee

--------------------------------------

A00 152750 1

A00 66500 2

A00 49250 3

A00 46500 4

A00 39250 5

B01 94250 1

C01 98250 1

C01 73800 2

（2）对查询结果进行排序：（无分组）

SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (ORDER BY salary desc) rank FROM employee 

--------------------------------------

A00 152750 1

C01 98250 2

D21 96170 3

B01 94250 4

E11 89750 5

E21 86150 6

E01 80175 7

C01 73800 8

D11 72250 9

row_number() over()和rownum差不多，功能更强一点（可以在各个分组内从1开时排序）．

2、rank() over()是跳跃排序，有两个第二名时接下来就是第四名（同样是在各个分组内）．

select workdept,salary,rank() over(partition by workdept order by salary) as dense_rank_order from emp order by workdept; 

------------------

A00 39250 1

A00 46500 2

A00 49250 3

A00 66500 4

A00 152750 5

B01 94250 1

C01 68420 1

C01 73800 3

3、dense_rank() over()是连续排序，有两个第二名时仍然跟着第三名。相比之下row_number是没有重复值的．

select workdept,salary,dense_rank() over(partition by workdept order by salary) as dense_rank_order from emp order by workdept;

------------------

A00 39250 1

A00 46500 2

A00 49250 3

A00 66500 4

A00 152750 5

B01 94250 1

C01 68420 1

C01 73800 2

C01 98250 3

使用ROW_NUMBER删除重复数据
---假设表TAB中有a,b,c三列，可以使用下列语句删除a,b,c都相同的重复行。

1 2	`DELETE` `FROM` `(select` `year,QUARTER,RESULTS,row_number() over(partition` `by` `YEAR,QUARTER,RESULTS` `order` `by` `YEAR,QUARTER,RESULTS)` `AS` `ROW_NO` `FROM` `SALE )` `WHERE` `ROW_NO>1`